Qwen-Image 是什么?
Qwen‑Image 是通义千问团队推出的 20B 参数多模态 Transformer 模型,定位为图像生成基础模型。它专注于复杂文本的高保真渲染,并能够在生成图像的同时进行文字布局、段落排版和细节编辑,适用于中文与英文等多语言场景。在通用生成基准(GenEval、DPG、OneIG‑Bench)和图像编辑基准(GEdit、ImgEdit、GSO)上均达到先进性能。借助更一致的图像编辑能力和跨基准表现,Qwen‑Image 能帮助用户完成宣传海报、图文插画、文档排版等创作任务,并降低专业视觉内容创作门槛。

Qwen-Image 的主要特性
- 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
- 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
- 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
Qwen-Image 的性能表现
Qwen-Image在多个公开基准上进行了评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。

Qwen-Image 的应用场景
- 创意设计:支持多种艺术风格,从照片级写实场景到印象派绘画,从动漫风格到极简设计,能够灵活响应各种创意提示,成为艺术家、设计师和故事创作者的多功能工具。
- 海报制作:能够根据用户输入的文本和设计要求,生成具有视觉冲击力和艺术感的海报,如电影海报、活动海报等,满足不同风格和主题的需求。
- PPT制作:可以生成企业级高质量的PPT页面图像,具备科技感十足的星空蓝主色调,融合流动的发光科技线条与微光粒子特效,营造出专业、现代且富有信任感的品牌氛围,同时支持多种艺术风格和布局要求。
Qwen-Image 的开源信息
- 在线体验:https://modelscope.cn/aigc/imageGeneration?tab=advanced
- Hugging Face:https://huggingface.co/Qwen/Qwen-Image
- ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
- Github:https://github.com/QwenLM/Qwen-Image
- Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

