混元DiT-腾讯最新开源的文生图AI模型

AI训练模型
24年5月14日
编辑

目录

混元DiT是什么？

混元DiT是腾讯最新开源的文生图AI模型，采用了与Sora、Stable Diffusion 3相同的DiT（Diffusion With Transformer）架构，支持中英文双语输入及理解，参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型，可以作为视频等多模态视觉生成的基础。

混元DiT-腾讯最新开源的文生图AI模型

混元DiT的主要特点

中英双语DiT架构：混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构，这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型，能够生成高保真度的图像，而Transformer架构则是一种在自然语言处理（NLP）领域非常成功的模型结构。
中文元素理解：混元DiT支持中文和英文的输入及理解，尤其对中文语言和文化元素有更好的理解和生成能力。
长文本理解：混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
细粒度语义理解：混元DiT能捕捉文本中的细微之处，从而生成完美符合用户需要的图片。
多轮对话文生图：混元DiT可以在多轮对话中通过与用户持续协作，精炼并完善的创意构想。
开源和免费商用：模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等，可供免费商用。

混元DiT-腾讯最新开源的文生图AI模型 — 混元DiT中文元素理解

混元DiT-腾讯最新开源的文生图AI模型 — 混元DiT长文本理解

混元DiT的性能表现

为了全面比较HunyuanDiT与其他模型的生成能力，研究团队构建了4个维度的测试集，包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。

评测数据显示，其效果超过现有的开源Stable Diffusion模型，属于国际领先水平。

混元DiT-腾讯最新开源的文生图AI模型

混元DiT的技术架构

混元DiT使用预训练的变分自编码器（VAE）将图像压缩到低维潜在空间中，并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码，混元DiT利用了预先训练的双语（英文和中文）CLIP和多语言T5编码器的组合。

混元DiT-腾讯最新开源的文生图AI模型

混元DiT-腾讯最新开源的文生图AI模型

如何使用混元DiT？

目前，混元DiT已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

官方项目地址：https://dit.hunyuan.tencent.com/
Hugging Face模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Github源码：https://github.com/Tencent/HunyuanDiT
技术报告：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

另外，腾讯也基于混元DiT开发了一个AI生图产品：腾讯混元生图，感兴趣的话，可以去体验下。

©版权声明：如无特殊说明，本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则，我站将依法保留追究相关法律责任的权利。

DIT Sora 混元大模型腾讯

TOP1

豆包 - 字节跳动旗下免费AI助手
23年8月17日
TOP2

讯飞绘镜：讯飞推出的一站式AI短视频创作工具
24年4月24日
TOP3

AIPPT：AI一键生成高质量PPT
23年8月28日
Trae - 字节跳动推出的AI代码助手
1月20日
白日梦AI-免费的AI视频创作平台，支持生成6分钟视频
24年7月23日
笔灵AI论文写作 - 专业AI论文写作平台
23年12月10日
AIPaperPass：AI一键生成高质量论文
23年10月30日
蝉镜-AI数字人视频创作平台
24年4月21日
通义灵码 - 阿里推出的AI智能编码助手
23年10月31日
闪剪-AI数字人视频生成平台
23年12月5日
讯飞智文-免费PPT生成工具
23年11月16日
墨狐AI：你的网文短篇小说写作助手
24年8月2日
讯飞文书 - 科大讯飞发布的AI公文写作工具
24年3月6日
茅茅虫论文写作 - 一站式AI论文写作平台
24年1月16日