即梦AI
当前位置:首页>AI模型>Skywork UniPic 2.0:昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0:昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0是什么?

UniPic 2.0 是昆仑万维 Skywork 多模态团队提出的统一多模态模型,集理解、生成和编辑于一体:在 SD3.5-Medium 上改造的 2B 参数 DiT,通过在线强化学习与双任务渐进强化同时提升文本生成图像与图像编辑效果,并据此与 Qwen2.5-VL-7B 连接训练出统一模型 UniPic2-Metaquery,实现理解-生成-编辑一体化;其生成与编辑表现超过 BAGEL(7B)与 FLUX-Kontext(12B)。

Skywork UniPic 2.0:昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0的功能特性

  • 文本生成图像:多风格、高保真出图,在美学与一致性等指标上展示开源同级领先表现。
  • 图像编辑:支持改字、换姿、风格迁移、元素增删与局部定向编辑,编辑可控且一致。
  • 统一“理解—生成—编辑”:通过与 Qwen2.5-VL-7B 连接训练,形成 UniPic2-Metaquery,一套模型完成视觉理解、生成与编辑联动。
  • 在线RL + 双任务渐进强化:采用在线强化学习与“生成/编辑”渐进强化策略,增强指令跟随与编辑一致性,两任务互相增益。
  • 轻量 DiT 架构(Kontext):基于 SD3.5-Medium 改造的 2B 参数 DiT,在较低推理成本下取得强效果。

Skywork UniPic 2.0的模型性能

UniPic2-SD3.5M-Kontext作为单一模型,虽然只有2B的参数量,但生图指标超越了具有12B参数量的Flux.dev、编辑效果超越了同样具有12B参数量的Flux-Kontext。同样超越了几乎所有统一模型的生图和编辑效果,包括19B的UniWorld-V1和14B的Bagel。此外,将UniPic2-SD3.5M-Kontext拓展成统一模型UniPic2-Metaquery后,效果得到了进一步的提升。

Skywork UniPic 2.0:昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0的项目地址

  • 项目主页:https://unipic-v2.github.io/
  • 技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
  • GitHub地址:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
  • HuggingFace Gradio:https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
  • HuggingFace Model:
    • https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B
    • https://huggingface.co/Skywork/UniPic2-Metaquery-9B
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。 Trae