豆包AI助手
当前位置:首页>AI资讯>Google 发布 Gemini Omni:从“理解世界”走向“生成世界”的全新多模态模型

Google 发布 Gemini Omni:从“理解世界”走向“生成世界”的全新多模态模型

发布时间:2026年5月20日

在 Google I/O 2026 上,Google 正式发布全新模型家族 Gemini Omni,并首先推出首个版本 Omni Flash。Google 将其定义为“create anything from any input”,即“从任意输入生成任意内容”的多模态生成模型,重点面向视频、音频和跨模态创作场景。相比传统视频模型主要依赖文本提示词,Gemini Omni 更强调多模态输入理解与连续生成能力,支持文本、图片、视频、音频等多种输入共同参与内容生成。

Gemini Omni

根据 Google 官方介绍,Gemini Omni 的首发版本 Omni Flash 已开始接入 Gemini App、Google Flow 和 YouTube Shorts。模型支持通过文本、照片、已有视频和音频生成全新视频内容,并可通过自然语言进行多轮视频编辑。Google 表示,Omni Flash 不只是传统意义上的文生视频模型,而是一个能够“理解世界并重新生成世界”的多模态生成系统。

Google DeepMind 在官方介绍中提到,Gemini Omni 延续了此前 Nano Banana 在图像生成和编辑中的思路,但进一步扩展到视频领域。相比仅支持文本输入的视频模型,Gemini Omni 更强调跨模态理解,例如可以基于图片生成动态视频、对已有视频进行风格化改写,甚至结合音频与视觉内容共同生成新的视频片段。

目前,Omni Flash 已支持生成最长约 10 秒的视频和音频片段,并计划在后续版本中进一步提升时长和复杂场景处理能力。Google 还强调,Gemini Omni 拥有更强的“世界知识”和语义理解能力,因为模型本身建立在 Gemini 大模型体系之上,而不是单纯的视频扩散模型。

这也意味着 Gemini Omni 与 Veo 等传统视频生成模型存在明显差异。过去的视频模型更多是“根据提示词生成视频”,而 Gemini Omni 更接近一种“多模态世界生成模型”,不仅理解文本,还理解图像、视频、声音之间的关联关系,并能够在不同模态之间自由转换和编辑。

Google 还在发布会上展示了 Gemini Omni 与 Google Flow 的结合方式。Flow 作为 Google 的 AI 视频创作平台,已经接入 Omni Flash,用于支持 AI 视频创作、镜头修改、风格编辑、多轮生成和 AI 工作流创作。与此同时,YouTube Shorts 也开始测试 Omni Flash 能力,用于增强 AI 视频生成和创意内容制作。

除了创作能力,Gemini Omni 的意义还在于 Google 正在进一步推动“Omni 模型”方向。Google CEO Sundar Pichai 在 I/O 2026 上将当前阶段定义为“Agentic Gemini Era”,强调 AI 不只是回答问题,而是要主动理解环境、执行任务并生成内容。Gemini Omni 被认为是 Google 在“世界模型”和“全模态 AI”方向的重要一步。

AIHub 认为,Gemini Omni 的核心价值不只是视频生成,而是它开始让 Gemini 从“理解信息”走向“生成世界”。相比传统文生视频模型,Gemini Omni 更像一个统一的多模态生成底座:它既能理解文本、图像、音频和视频,也能在这些模态之间完成转换、编辑和连续生成。

从行业趋势来看,Gemini Omni 代表 AI 视频模型正在进入“Omni 化”阶段。未来的视频生成不再只是输入一句提示词生成一段视频,而会变成一种跨模态、可编辑、可持续交互的生成系统。随着 Gemini Omni 接入 Gemini App、Flow、YouTube Shorts 和 Google AI 生态,Google 也正在尝试建立从模型到底层创作平台再到内容分发平台的一体化 AI 视频生态。

©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。