Genie-谷歌发布的AI基础世界模型，一张图片生成交互世界

Genie是什么？

Genie是一个由Google发布的根据互联网视频训练的AI基础世界模型，中文意思为“精灵”。它是基于Google DeepMind的最新成果，采用了最先进的视频生成模型的思想，核心设计采用了时空变换器。Genie是第一个通过未标记互联网视频以无监督方式训练的生成式交互环境，能够接收文本提示、合成图像、照片甚至草图或想法，并生成无数种动作可控的、能够互动的虚拟世界环境。

尽管Genie已经展示了其强大的能力，但它目前仍处于研究预览阶段，这意味着它还在不断的开发和完善中，以达到更广泛的应用和更高的性能水平。

了解更多详情：

项目地址：https://sites.google.com/view/genie-2024/home
论文地址：https://arxiv.org/abs/2402.15391

Genie的模型规模及技术架构

Genie的模型规模及技术架构具有以下特点：

模型规模：Genie拥有110亿参数，属于一个大规模的AI模型。这使得它能够处理复杂的数据和生成高质量的交互式虚拟环境。
训练数据：Genie通过网络上超过20万小时的2D游戏视频进行训练，这些视频提供了丰富的动作和交互数据，帮助模型学习如何生成和控制虚拟环境。值得注意的是，这一训练过程是在无监督和无标签视频的情况下进行的，展示了模型强大的学习能力。
技术架构：

基础架构：Genie的底层基于ViT（Vision Transformer），采用了一套内存高效的ST-transformer架构，这包含了时空注意力机制。
关键组件：
- 时空视频分词器：用于处理视频数据，将视频分割成可以被模型理解和处理的小块。
- 因果动作模型（LAM，基于像素）：这是一个关键的创新点，允许模型学习和推断动作的因果关系，而不仅仅是动作本身。
- 动力学模型（基于视频token）：用于理解和模拟物理世界中的动力学行为，如物体的运动和相互作用。

Genie的这一技术架构和模型规模使其成为一个强大的工具，能够生成复杂且高度互动的虚拟世界，为用户提供前所未有的体验，并为AI领域的发展开辟新的可能性。

Genie可以做什么？

无需行动标签的学习控制：Genie能够通过分析大量的公开互联网视频学会精细的控制技巧，识别可控制的图像部分，并推断出在各种生成环境中一致的潜在动作。
激发新一代内容创作者：Genie为内容创作者提供了新的工具和方法，使得仅需一张图像即可创造出全新的交互环境，降低了创造复杂虚拟环境的门槛。
训练通用型AI代理：Genie不仅提供了创造交互式环境的能力，还为AI研究提供了一个有价值的资源，促进了通用型AI代理的发展。
跨领域应用：Genie是一个通用方法，适用于多个领域，不需要任何额外的领域知识，其潜在应用范围非常广泛。

Genie适用人群

内容创作者和游戏开发者：可以使用Genie快速原型设计和实现他们的创意，通过结合最先进的文本到图像生成模型，创作者可以将文本描述转换成图像，然后使用Genie为这些图像赋予交互性和可玩性。
AI研究人员：Genie为AI研究提供了一个有价值的资源，通过在不断生成的新世界中训练，未来的AI代理可以在多样化的环境下学习和适应。
跨领域专业人士：由于Genie的通用性，它适用于多个领域的专业人士，包括但不限于游戏设计、教育、模拟训练等领域，为他们提供了一个强大的工具来创造和探索虚拟世界。

总之，Genie模型的出现不仅为用户提供了创新的交互体验和内容创作的新方法，也为AI研究和跨领域应用开辟了新的道路，预示着AI技术在生成交互式虚拟环境方面的巨大潜力和未来的发展方向。