全部标签

AI模型

MiniMax H3 - MiniMax 推出的全模态视频生成模型

MiniMax H3 是 MiniMax 的通用全模态生成模型，统一处理文本、图像、视频、音频上下文，输出 2K 分辨率、带原生双声道的音视频。
Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Anthropic Opus 系列新一代旗舰模型，以接近 Fable 5 的智能水平配合更低的调用成本，面向日常高频使用与长周期 Agent 任务
Qwen-Image-3.0：通义千问推出的第三代图像生成基础模型

Qwen-Image-3.0 是通义千问第三代图像生成基础模型，以内容丰实、细节真实、知识厚实为核心，擅长复杂版面、小字与多语言渲染。
Qwen-Audio-3.0-TTS：阿里推出的新一代实时语音合成大模型

Qwen-Audio-3.0-TTS 是阿里通义千问新一代实时语音合成大模型，支持自然语言指令与标签控情绪、16 种语言 20 种方言、48kHz 影视级音质与复杂环境语音克隆，Plus 版登顶 Artificial Analysis 榜单。
Kimi K3 - 月之暗面推出的2.8万亿参数开放权重多模态模型

Kimi K3是月之暗面推出的2.8万亿参数多模态旗舰模型，支持100万Token上下文、图像与视频理解、长程编程、AI智能体、知识工作及深度推理，可通过Kimi、Kimi Work、Kimi Code和API使用。
GPT-Live：OpenAI 新一代实时语音交互模型

GPT-Live 是 OpenAI 推出的实时语音交互模型，具备低延迟语音处理、自然连续对话、多模态协同和多语言交流能力，为 ChatGPT Voice、AI助手、语音Agent和智能设备提供实时交互基础。
Ofox - 面向开发者的大模型 API 聚合平台

一个 API Key 调用 100+ 大模型，支持 OpenAI / Anthropic / Gemini 三套接入协议
Fun-ASR-Realtime：阿里通义推出的多语言实时语音识别模型

Fun-ASR-Realtime 是阿里通义推出的实时语音识别模型，已上线阿里云百炼平台，支持 30 种语言与 16 种方言，具备流式转写、热词增强、上下文消歧和低延迟识别能力。
腾讯混元 Hy3：面向推理、代码与 Agent 场景的开源 MoE 大模型

腾讯混元 Hy3 是腾讯混元团队发布的开源 MoE 大语言模型，总参数 295B、激活参数 21B，支持长上下文，面向复杂推理、代码生成、工具调用和 Agent 工作流等场景。
LongCat-2.0：美团发布并开源的万亿参数AI模型

LongCat-2.0 是美团 LongCat 团队推出的高性能 Agentic 大模型，支持 1M tokens 长上下文、128K tokens 输出、工具调用、多步推理和代码生成，兼容 OpenAI 与 Anthropic API 格式，适合 AI Agent、编程助手和自动化工作流场景。
GPT-5.6：OpenAI 推出的新一代旗舰系列模型

GPT-5.6 是 OpenAI 发布的新一代模型家族，包含 Sol、Terra、Luna 三个版本，面向代码开发、知识工作、多智能体任务、科学研究和网络安全等复杂场景。
Seedance 2.5：字节跳动推出的新一代 AI 视频生成模型

Seedance 2.5 是字节跳动推出的新一代 AI 视频生成模型，支持单段原生 30 秒视频直出、最多 50 个全模态素材联合生成和局部编辑，适合视频创作、广告营销、工业仿真与具身智能等场景。
Seed2.1 - 字节面向生产力场景的多模态 Agent 模型，视觉与视频理解突出

Seed2.1 是字节跳动 Seed 团队推出的多模态大模型系列，含 Pro、Turbo 两款尺寸，强化通用 Agent、代码工程与视觉、空间、视频理解能力。在 AIHub 了解 Seed2.1 的特性与接入方式。
GLM-5.2：智谱推出并开源的新一代旗舰基座模型

GLM-5.2 是智谱AI推出并开源的旗舰基座模型，支持 1M 上下文与 128K 最大输出 Tokens，面向 Coding、复杂工程开发、长程任务执行和 AI Agent 场景，支持 API 调用与本地部署。
Seedance 2.0 mini：字节跳动推出的高性价比视频生成模型

Seedance 2.0 mini 是火山引擎推出的高性价比 AI 视频生成模型，主打更低生成成本与更高规模化生产效率，适用于电商素材、营销短片、UGC 内容和特效玩法等高频视频创作场景。
Khala - 中央音乐学院等开源的AI歌曲生成模型

Khala 是一个面向高保真歌曲生成的开源系统，支持基于文本描述与歌词条件生成完整歌曲。与依赖语义 token、扩散模型或多级音频生成模块的路线不同，Khala 采用统一的声学词元建模路线，在同一套离散音频表示空间中完成从粗粒度音乐结构到细粒度声学细节的生成。
Kimi K2.7 Code：月之暗面推出的开源代码专用 Agent 模型

Kimi K2.7 Code 是 Moonshot AI 推出的代码专用 Agent 模型，面向长程编程任务、代码库理解、调试重构和软件工程自动化场景优化。模型采用 MoE 架构，拥有 1T 总参数、32B 激活参数，支持 256K 上下文、文本/图片/视频输入、思考模式、多步工具调用和 OpenAI 兼容 API，已在 Hugging Face 开放权重。
MiMo-V2.5-Pro-UltraSpeed：小米发布的高速 AI Agent 推理模型

MiMo-V2.5-Pro-UltraSpeed 是小米 MiMo 团队推出的高速推理模型模式，基于 MiMo-V2.5-Pro-FP4-DFlash，支持代码生成、Agent 工作流和长上下文任务，官方称输出速度可突破 1000 tokens/s。
Gemini 3.5 Live Translate：Google 发布的新一代实时语音互译模型，支持 70 多种语言

Gemini 3.5 Live Translate 是 Google 发布的新一代实时语音互译模型，主打低延迟语音到语音翻译。该模型可自动识别 70 多种语言，在说话者持续讲话时同步生成翻译语音，并尽量保留原说话者的语调、语速和音高。它已开始接入 Google Translate、Gemini Live API、Google AI Studio 和 Google Meet 等产品，适合跨语言通话、…
Claude Fable 5：Anthropic 推出的新一代 Mythos 级前沿模型

Claude Fable 5 是 Anthropic Claude 5 系列的首发模型，属于全新的 Mythos 级层级，能力超过此前公开发布的所有 Claude 模型。它在软件工程、知识工作、视觉与长程自主任务上达到业界领先水平，并通过安全分类器在网络安全、生物化学等高风险领域自动回退至 Claude Opus 4.8 响应，实现前沿能力的安全开放。
Qwen3.7-Plus - 阿里巴巴推出的新一代多模态智能体模型

Qwen3.7-Plus 是阿里巴巴 Qwen 团队推出的新一代多模态智能体模型，定位为面向 Agent 场景的视觉语言基础模型。它在 Qwen3.7 系列能力基础上，进一步强化视觉理解、语言推理和多模态任务处理能力，可将图像、视频、文本等信息统一到智能体工作流中，用于完成视觉问答、界面理解、文档分析、代码辅助、生产力自动化等复杂任务。
MiniMax M3 - MiniMax 发布的原生多模态大模型，支持前沿编程与 Agent 能力、1M 上下文

MiniMax M3 是 MiniMax 发布的新一代旗舰语言模型，主打 Coding、Agentic 能力、1M 上下文和原生多模态能力，适合代码开发、智能体任务、长文档处理、工具调用、多步推理以及图片、视频理解等场景。
Step 3.7 Flash - 阶跃星辰推出的面向真实 Agent 场景的高效率多模态模型

Step 3.7 Flash 是阶跃星辰推出的高效率 Flash 多模态模型，面向真实世界 Agent、智能编程、视觉搜索、工具调用和企业任务场景，支持 256k 上下文、原生图像理解、可靠工具编排和主流 Agent 生态兼容。
Claude Opus 4.8 - Anthropic旗舰AI模型，支持复杂编码与长程Agent任务

Claude Opus 4.8 是 Anthropic 发布的旗舰级混合推理模型，面向复杂编码、长程 Agent 任务、企业级知识工作和高要求专业场景。模型支持 1M tokens 上下文窗口、128k tokens 最大输出，并通过自适应思考与 effort 控制，在推理质量、响应速度和成本之间进行调节。相比前代版本，Opus 4.8 强化了代码可靠性、工具调用、长期任务执行和不确定性提示能力，…
SkyClaw-v1.0：昆仑万维推出的高性能 Agent 模型，支持百万token上下文

昆仑万维集团推出高性能 Agent 模型 SkyClaw-v1.0，支持百万 token 上下文和多步任务执行，性能超越多个主流开源模型，并提供极具竞争力的定价和免费试用服务，推动国产大模型在智能体生态建设与长文本处理领域的进步。
LongCat-Video-Avatar 1.5：美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5 是美团 LongCat Team 开源的音频驱动数字人视频生成模型，基于 LongCat-Video 构建，支持单人、多人与多音频输入，可生成唇形同步、动作自然、身份稳定的虚拟人视频，适用于直播、讲解、表演、电商营销和动画角色等场景。
Lance - 字节跳动开源的原生统一多模态模型，支持图像与视频理解生成编辑

Lance 是字节跳动开源的 3B 原生统一多模态模型，支持图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解等任务，适合多模态研究、视觉生成实验和开发者二次开发。
Qwen3.5-LiveTranslate - 阿里通义千问推出的多语言实时同传模型

Qwen3.5-LiveTranslate-Flash 是阿里云通义千问团队发布的新一代多语言实时音视频同声传译模型，基于 Qwen3.5-Omni Thinker-Talker 架构。相比前代 Qwen3-LiveTranslate-Flash 实现全面升级：输入语种从 18 种提升至 60 种，输出音频语种从 10 种提升至 29 种，端到端字均延迟降至 2.8 秒。新增实时音色克隆（翻译后保…
Qwen3.7-Max：阿里发布的新一代千问旗舰模型

Qwen3.7-Max 是阿里云通义千问团队发布的 Qwen 3.7 系列旗舰模型，定位为面向智能体时代的全能基座。模型在编程智能体（SWE-Pro、SciCode、Terminal-Bench 等多项领先）、通用智能体（MCP-Mark、MCP-Atlas、Skillbench 等多项领先）、高难度推理（GPQA Diamond 92.4、HMMT 97.1、Apex 44.5）上均达到前沿水平…
Gemini Omni - Google 推出的统一多模态 AI 模型，任意输入生成视频并支持对话式编辑

Gemini Omni 是 Google DeepMind 于 Google I/O 2026 发布的统一多模态模型系列，核心能力是从任意输入（文本、图像、音频、视频）创造任意输出，首发方向为视频生成与对话式视频编辑。该模型将 Gemini 的推理智能与生成媒体模型结合，能模拟真实物理世界、理解历史文化科学背景，并通过自然语言对话实现多轮视频编辑（背景替换、风格迁移、角色调整等），每次编辑在前一次…
Gemini 3.5 Flash - Google 发布的高速前沿模型，编程与 Agent 能力超越上代 Pro

Gemini 3.5 Flash 是 Google 发布的 Gemini 3.5 家族首发模型，编程与 Agent benchmark 超越 3.1 Pro，4 倍速度，100 万 token 上下文，已全线上线。在 AIHub 了解更多。
GPT-5.5 Instant：OpenAI 推出的新一代 ChatGPT 默认模型

GPT-5.5 Instant 是 OpenAI 推出的 ChatGPT 新默认模型，替代 GPT-5.3 Instant，幻觉率降低 52.5%，数学与多模态推理能力显著提升，支持过往对话与 Gmail 个性化上下文。
MiMo-V2.5-Pro - 小米开源的旗舰级 Agent 与软件工程大模型

Xiaomi MiMo-V2.5-Pro 是小米推出的旗舰级 Agent 与软件工程大模型，采用 1.02T 参数 MoE 架构，42B 激活参数，支持最高 100 万 tokens 上下文，适合复杂代码生成、长程智能体任务、工具调用和工程自动化场景。
Hy3 preview - 腾讯混元开源的快慢思考融合的混合专家模型

Hy3 preview 是由腾讯混元团队开发的一个拥有 2950 亿参数的混合专家（MoE）模型，其中激活参数为 210 亿，MTP 层参数为 38 亿。Hy3 preview 是首个基于我们重构后的基础设施训练而成的模型，也是迄今为止我们发布的最强模型。它在复杂推理、指令遵循、上下文学习、代码生成和智能体任务等方面均有显著提升。
DeepSeek-V4：DeepSeek 推出的新一代开源大语言模型

DeepSeek-V4 是 DeepSeek 推出的新一代开源大语言模型系列，面向长上下文理解、复杂推理、代码生成和 Agent 自动化任务场景。
GPT‑5.5：OpenAI 推出的新一代旗舰AI模型

GPT-5.5 是 OpenAI 发布的新一代智能模型，面向编程、知识工作、数据分析、文档处理、科研辅助和软件操作等复杂任务设计，具备更强的长期推理、工具调用、任务规划和自主执行能力，可在 ChatGPT、Codex 及即将上线的 API 中使用。
MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

Xiaomi MiMo-V2.5 是小米 MiMo 团队推出的原生多模态 Agent 大模型，支持视觉、音频、文本等多模态理解，并具备较强的智能体任务处理能力。该模型采用 310B 参数 Sparse MoE 架构，激活参数为 15B，支持最高 100 万 tokens 上下文，适合多模态问答、图像与视频理解、文档分析、图表推理和高性价比 Agent 应用开发。
ChatGPT Images 2.0：OpenAI 推出的新一代图像生成模型

ChatGPT Images 2.0 是 OpenAI 2026年4月推出的图像生成模型，支持精准文字渲染、多语言、2K 分辨率和推理式生成。在 AIHub 了解完整功能与使用方法。
Kimi K2.6 - 月之暗面最新开源大模型，代码与 Agent 集群能力行业领先

Kimi K2.6 是月之暗面开源的大语言模型，代码生成和 Agent 集群能力行业领先，支持超长上下文和复杂软件工程任务。适合开发者和技术团队使用，在AIHub了解更多。
GPT-Rosalind：OpenAI 推出的首个生命科学专用推理模型

GPT-Rosalind 是 OpenAI 发布的首个面向生命科学领域的专用模型，专注于生物学、药物发现和转化医学的深度推理。该模型擅长处理分子、蛋白、基因等多模态生物数据，能够辅助科研人员完成文献综述、实验规划和数据分析等高耗时工作。目前以 Research Preview 形式面向美国合规企业客户开放。