islide AI
当前位置:首页>AI工具>AI训练模型>混元DiT-腾讯最新开源的文生图AI模型

混元DiT-腾讯最新开源的文生图AI模型

混元DiT是什么?

混元DiT是腾讯最新开源的文生图AI模型,采用了与Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架构,支持中英文双语输入及理解,参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型,可以作为视频等多模态视觉生成的基础。

混元DiT的主要特点

  1. 中英双语DiT架构:混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构,这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型,能够生成高保真度的图像,而Transformer架构则是一种在自然语言处理(NLP)领域非常成功的模型结构。
  2. 中文元素理解:混元DiT支持中文和英文的输入及理解,尤其对中文语言和文化元素有更好的理解和生成能力。
  3. 长文本理解:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
  4. 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图片。
  5. 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
  6. 开源和免费商用:模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等,可供免费商用。
混元DiT的中文元素理解能力
混元DiT中文元素理解
混元DiT长文本理解
混元DiT长文本理解

混元DiT的性能表现

为了全面比较HunyuanDiT与其他模型的生成能力,研究团队构建了4个维度的测试集,包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。

评测数据显示,其效果超过现有的开源Stable Diffusion模型,属于国际领先水平。

混元DiT的性能表现

混元DiT的技术架构

混元DiT使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码,混元DiT利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。

混元DiT的技术架构
混元DiT的技术架构

如何使用混元DiT

目前,混元DiT已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

?混元DiT已上线到吐司AI绘画平台,欢迎使用:https://www.tusi.cn/

另外,腾讯也基于混元DiT开发了一个AI生图产品:腾讯混元生图,感兴趣的话,可以去体验下。

islide AI
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
0 条回复
    暂无讨论,说说你的看法吧
error: