Google 发布 Gemini Omni：从“理解世界”走向“生成世界”的全新多模态模型

发布时间：2026年5月20日

在 Google I/O 2026 上，Google 正式发布全新模型家族 Gemini Omni，并首先推出首个版本 Omni Flash。Google 将其定义为“create anything from any input”，即“从任意输入生成任意内容”的多模态生成模型，重点面向视频、音频和跨模态创作场景。相比传统视频模型主要依赖文本提示词，Gemini Omni 更强调多模态输入理解与连续生成能力，支持文本、图片、视频、音频等多种输入共同参与内容生成。

根据 Google 官方介绍，Gemini Omni 的首发版本 Omni Flash 已开始接入 Gemini App、Google Flow 和 YouTube Shorts。模型支持通过文本、照片、已有视频和音频生成全新视频内容，并可通过自然语言进行多轮视频编辑。Google 表示，Omni Flash 不只是传统意义上的文生视频模型，而是一个能够“理解世界并重新生成世界”的多模态生成系统。

Google DeepMind 在官方介绍中提到，Gemini Omni 延续了此前 Nano Banana 在图像生成和编辑中的思路，但进一步扩展到视频领域。相比仅支持文本输入的视频模型，Gemini Omni 更强调跨模态理解，例如可以基于图片生成动态视频、对已有视频进行风格化改写，甚至结合音频与视觉内容共同生成新的视频片段。

目前，Omni Flash 已支持生成最长约 10 秒的视频和音频片段，并计划在后续版本中进一步提升时长和复杂场景处理能力。Google 还强调，Gemini Omni 拥有更强的“世界知识”和语义理解能力，因为模型本身建立在 Gemini 大模型体系之上，而不是单纯的视频扩散模型。

这也意味着 Gemini Omni 与 Veo 等传统视频生成模型存在明显差异。过去的视频模型更多是“根据提示词生成视频”，而 Gemini Omni 更接近一种“多模态世界生成模型”，不仅理解文本，还理解图像、视频、声音之间的关联关系，并能够在不同模态之间自由转换和编辑。

Google 还在发布会上展示了 Gemini Omni 与 Google Flow 的结合方式。Flow 作为 Google 的 AI 视频创作平台，已经接入 Omni Flash，用于支持 AI 视频创作、镜头修改、风格编辑、多轮生成和 AI 工作流创作。与此同时，YouTube Shorts 也开始测试 Omni Flash 能力，用于增强 AI 视频生成和创意内容制作。

除了创作能力，Gemini Omni 的意义还在于 Google 正在进一步推动“Omni 模型”方向。Google CEO Sundar Pichai 在 I/O 2026 上将当前阶段定义为“Agentic Gemini Era”，强调 AI 不只是回答问题，而是要主动理解环境、执行任务并生成内容。Gemini Omni 被认为是 Google 在“世界模型”和“全模态 AI”方向的重要一步。

AIHub 认为，Gemini Omni 的核心价值不只是视频生成，而是它开始让 Gemini 从“理解信息”走向“生成世界”。相比传统文生视频模型，Gemini Omni 更像一个统一的多模态生成底座：它既能理解文本、图像、音频和视频，也能在这些模态之间完成转换、编辑和连续生成。

从行业趋势来看，Gemini Omni 代表 AI 视频模型正在进入“Omni 化”阶段。未来的视频生成不再只是输入一句提示词生成一段视频，而会变成一种跨模态、可编辑、可持续交互的生成系统。随着 Gemini Omni 接入 Gemini App、Flow、YouTube Shorts 和 Google AI 生态，Google 也正在尝试建立从模型到底层创作平台再到内容分发平台的一体化 AI 视频生态。

Google 发布 Gemini Omni：从“理解世界”走向“生成世界”的全新多模态模型

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

谱乐 AI - 一站式 AI 音乐与 MV 创作平台

Claude Science - Anthropic推出的面向科研人员的AI工作台

讯飞译制 - AI视频字幕制作与多语种译制平台

LongCat-2.0：美团发布并开源的万亿参数AI模型

图颜AI - 工作室 / 跨境电商必备AI设计助手

千问输入法 - 阿里千问推出的 AI 语音输入法，说完即成稿

Google 发布 Gemini 3.5 Flash：面向 Agent 与编程任务的新一代高速模型

Gemini：我们规模最大、能力最强的 AI 模型

阿里发布HappyOyster，把"世界模型"变成人人可玩的产品

阿里巴巴 HappyHorse 1.0 开启灰测，支持音视频联合生成与视频编辑