Stable Diffusion 3 研究论文发布（附论文地址）

AIHub 3月5日最新消息，Stability AI 发布了关于其最新研究成果 Stable Diffusion 3 的研究论文。这篇论文深入探讨了 Stable Diffusion 3 的底层技术，这是一种文本到图像生成系统，据称在字体排版和提示遵循方面超越了现有的最先进系统，如 DALL·E 3、Midjourney v6 和 Ideogram v1。Stable Diffusion 3 采用了新的多模态扩散变换器（MMDiT）架构，该架构为图像和语言表示使用不同的权重集，从而提高了文本理解和拼写能力。

研究论文的主要要点包括：

性能提升：Stable Diffusion 3 在视觉美学、提示遵循和字体排版方面，基于人类偏好评估，与竞争模型相比表现优异。
MMDiT架构：新架构允许图像和文本标记之间的信息流动，以改善输出的整体理解和排版。
改进的Rectified Flows：通过重新加权，Stable Diffusion 3 在训练过程中采用了一种新的轨迹采样计划，提高了性能。
可扩展性：MMDiT架构易于扩展到多种模态，如视频。
灵活的文本编码器：在推理过程中移除内存密集型的 T5 文本编码器，可以显著降低 SD3 的内存需求，同时只有微小的性能损失。
硬件兼容性：在消费级硬件上，最大的 SD3 模型（8B 参数）可以在 RTX 4090 的 24GB VRAM 中运行，并在 50 次采样步骤下，34 秒内生成 1024x1024 分辨率的图像。
模型变体：初始发布将包括从 800M 到 8B 参数的多种 Stable Diffusion 3 模型变体，以进一步消除硬件障碍。

这篇研究论文将在 arXiv 上提供，并且 Stability AI 邀请感兴趣的人注册等待列表，以参与 Stable Diffusion 3 的早期预览。

论文地址：https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
官方博客：https://stability.ai/news/stable-diffusion-3-research-paper

Stable Diffusion 3 详细介绍，点此了解。

Stable Diffusion 3 研究论文发布（附论文地址）

研究论文的主要要点包括：

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Ofox - 面向开发者的大模型 API 聚合平台

芒果灵创 - 芒果TV推出的专业级 AI 影视创作平台

造化工坊 - 腾讯光子推出的 AI 互动游戏创作平台

CosyVoice - 阿里推出的 AI 语音输入法

Fun-ASR-Realtime：阿里通义推出的多语言实时语音识别模型

腾讯混元 Hy3：面向推理、代码与 Agent 场景的开源 MoE 大模型

研究论文的主要要点包括：

ChatGPT安卓APP下周推出，现在就可以预约！

ChatGPT 安卓版正式发布，开放美印等国家地区

YouTube 测试新功能：用 AI 总结视频

谦寻发布AI数字人业务和一站式AI智能直播综合服务平台

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Ofox - 面向开发者的大模型 API 聚合平台

芒果灵创 - 芒果TV推出的专业级 AI 影视创作平台

造化工坊 - 腾讯光子推出的 AI 互动游戏创作平台

CosyVoice - 阿里推出的 AI 语音输入法

Fun-ASR-Realtime：阿里通义推出的多语言实时语音识别模型

腾讯混元 Hy3：面向推理、代码与 Agent 场景的开源 MoE 大模型