全部标签

多模态模型

Seedance 2.5 亮相：字节跳动升级 AI 视频生成能力

2026 年 6 月 23 日，火山引擎在北京举办 2026 夏季 FORCE 原动力大会。会上，字节跳动最新豆包视频生成模型 Seedance 2.5 首次亮相。根据公开报道，Seedance 2.5 当前处于全球企业内测阶段，预计将于 2026 年 7 月初正式上线。从已公布的信息看，Seedance 2.5 的升级重点主要集中在三个方面：单段原生 30 秒视频直出、最多 50 个全模态素材…
AI资讯
- 411
- 0
AIHub6月23日
Seed2.1 - 字节面向生产力场景的多模态 Agent 模型，视觉与视频理解突出

Seed2.1 是字节跳动 Seed 团队推出的多模态大模型系列，含 Pro、Turbo 两款尺寸，强化通用 Agent、代码工程与视觉、空间、视频理解能力。在 AIHub 了解 Seed2.1 的特性与接入方式。
AI模型
- 300
- 0
AIHub6月23日
Kimi K2.7 Code 发布并开源：面向长程 Coding 与 Agent 任务优化

近日，月之暗面推出新一代代码专用模型 Kimi K2.7 Code。这是 Kimi 系列面向 AI 编程和 Coding Agent 场景的最新模型，已在 Kimi API 平台开放调用，并在 Hugging Face 提供开源权重。从定位来看，Kimi K2.7 Code 不是普通聊天模型，而是专门面向代码生成、代码库理解、调试重构、多文件修改和复杂软件工程任务优化的 Coding Agent…
AI资讯
- 2.1k
- 0
AIHub6月13日
Kimi K2.7 Code：月之暗面推出的开源代码专用 Agent 模型

Kimi K2.7 Code 是 Moonshot AI 推出的代码专用 Agent 模型，面向长程编程任务、代码库理解、调试重构和软件工程自动化场景优化。模型采用 MoE 架构，拥有 1T 总参数、32B 激活参数，支持 256K 上下文、文本/图片/视频输入、思考模式、多步工具调用和 OpenAI 兼容 API，已在 Hugging Face 开放权重。
AI模型
- 935
- 0
AIHub6月13日
MiniMax M3发布：前沿 Coding 与 Agent 能力，支持 1M 上下文和原生多模态

MiniMax 正式发布新一代旗舰语言模型 MiniMax M3，主打前沿 Coding、Agentic 能力、1M 上下文窗口和原生多模态能力，支持文本、图片、视频输入和工具调用，适合 AI 编程、智能体开发、长文档处理和复杂任务自动化场景。
AI资讯
- 5.4k
- 0
AIHub6月1日
MiniMax M3 - MiniMax 发布的原生多模态大模型，支持前沿编程与 Agent 能力、1M 上下文

MiniMax M3 是 MiniMax 发布的新一代旗舰语言模型，主打 Coding、Agentic 能力、1M 上下文和原生多模态能力，适合代码开发、智能体任务、长文档处理、工具调用、多步推理以及图片、视频理解等场景。
AI模型
- 2.4k
- 0
AIHub6月1日
阶跃星辰发布 Step 3.7 Flash：面向真实 Agent 场景的高效率多模态模型

2026年5月29日，阶跃星辰正式发布 Step 3.7 Flash，这是一款面向真实世界 Agent 场景的新一代高效率 Flash 模型。与传统偏问答的模型不同，Step 3.7 Flash 更强调“理解之后执行”，围绕多模态感知、网页与视觉搜索、工具调用、代码执行和 Agent 工作流进行了系统增强。 Step 3.7 Flash 采用稀疏 MoE 视觉语言模型架构，具备文本、图像、代码、搜…
AI资讯
- 1k
- 0
AIHub5月29日
Step 3.7 Flash - 阶跃星辰推出的面向真实 Agent 场景的高效率多模态模型

Step 3.7 Flash 是阶跃星辰推出的高效率 Flash 多模态模型，面向真实世界 Agent、智能编程、视觉搜索、工具调用和企业任务场景，支持 256k 上下文、原生图像理解、可靠工具编排和主流 Agent 生态兼容。
AI模型
- 1.2k
- 0
AIHub5月29日
小米 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%

小米 MiMo 官方宣布 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%，Token Plan 用量提升至原来的 5-8 倍，并对当前有效用户 Credits 额度进行全量重置，进一步降低开发者接入 MiMo 系列模型的成本门槛。
AI资讯
- 1.5k
- 0
AIHub5月27日
Lance - 字节跳动开源的原生统一多模态模型，支持图像与视频理解生成编辑

Lance 是字节跳动开源的 3B 原生统一多模态模型，支持图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解等任务，适合多模态研究、视觉生成实验和开发者二次开发。
AI模型
- 2.5k
- 0
AIHub5月22日
Google 发布 Gemini Omni：从“理解世界”走向“生成世界”的全新多模态模型

Google 在 I/O 2026 上发布 Gemini Omni 多模态模型家族，首发版本 Omni Flash 支持文本、图片、视频和音频输入生成视频内容，并已接入 Gemini App、Google Flow 和 YouTube Shorts，代表 AI 视频模型向全模态生成方向演进。
AI资讯
- 1.2k
- 0
AIHub5月20日
Google 发布 Gemini 3.5 Flash：面向 Agent 与编程任务的新一代高速模型

Google 在 I/O 2026 上发布 Gemini 3.5 Flash，主打 Agent 执行、复杂编码、长周期任务和多模态理解能力，支持百万级上下文、函数调用、代码执行、文件搜索和搜索增强，适合构建 AI Agent、编程助手和自动化工作流。
AI资讯
- 1.9k
- 0
AIHub5月20日
Gemini Omni - Google 推出的统一多模态 AI 模型，任意输入生成视频并支持对话式编辑

Gemini Omni 是 Google DeepMind 于 Google I/O 2026 发布的统一多模态模型系列，核心能力是从任意输入（文本、图像、音频、视频）创造任意输出，首发方向为视频生成与对话式视频编辑。该模型将 Gemini 的推理智能与生成媒体模型结合，能模拟真实物理世界、理解历史文化科学背景，并通过自然语言对话实现多轮视频编辑（背景替换、风格迁移、角色调整等），每次编辑在前一次…
AI模型
- 3.5k
- 0
AIHub5月20日
MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

Xiaomi MiMo-V2.5 是小米 MiMo 团队推出的原生多模态 Agent 大模型，支持视觉、音频、文本等多模态理解，并具备较强的智能体任务处理能力。该模型采用 310B 参数 Sparse MoE 架构，激活参数为 15B，支持最高 100 万 tokens 上下文，适合多模态问答、图像与视频理解、文档分析、图表推理和高性价比 Agent 应用开发。
AI模型
- 2.6k
- 0
AIHub4月23日
HappyHorse - 阿里巴巴推出的 AI 视频生成模型

HappyHorse 是阿里巴巴 ATH 创新事业部研发的 AI 视频生成模型，支持文本转视频、图像转视频，以及带原生音频和不带音频的多种生成模式。
AI模型
- 4.8k
- 0
AIHub4月10日
Muse Spark - Meta AI 推出的原生多模态推理模型

Muse Spark 是 Meta AI 推出的原生多模态推理模型，支持工具调用、视觉链式思考和多智能体协作，已用于 Meta AI app 与网页端，并将逐步接入更多 Meta 产品生态。
AI模型
- 1.3k
- 0
AIHub4月9日
Qwen3.6-Plus - 阿里新一代多模态推理与智能体编程模型

Qwen3.6-Plus 是阿里巴巴推出的新一代多模态大模型，支持文本、图像、视频输入，具备逻辑推理、代码生成、工具调用、图像与视频理解等能力，适合智能体、企业应用与自动化工作流场景。官方通过阿里云百炼 API 提供接入。
AI模型
- 3.9k
- 0
AIHub4月3日
Emu3：智源推出的原生多模态世界模型，可实现图像、文本、视频的统一理解和生成

Emu3是智源研究院发布的原生多模态世界模型，该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成
AI模型
- 6.6k
- 0
AIHub24年10月22日
Grok-1.5V：xAI发布的多模态AI大模型

Grok-1.5V不仅具备强大的文本处理能力，还可以处理各种视觉信息，如文档、图表、截图和照片。这使得Grok-1.5V能够在多学科推理、理解科学图表、阅读文本和实现真实世界的空间理解等领域与现有的前沿多模态模型竞争。
AI模型
- 6.9k
- 0
AIHub24年4月15日