-
Qwen3.7-Plus - 阿里巴巴推出的新一代多模态智能体模型
Qwen3.7-Plus 是阿里巴巴 Qwen 团队推出的新一代多模态智能体模型,定位为面向 Agent 场景的视觉语言基础模型。它在 Qwen3.7 系列能力基础上,进一步强化视觉理解、语言推理和多模态任务处理能力,可将图像、视频、文本等信息统一到智能体工作流中,用于完成视觉问答、界面理解、文档分析、代码辅助、生产力自动化等复杂任务。 -
MiniMax M3 - MiniMax 发布的原生多模态大模型,支持前沿编程与 Agent 能力、1M 上下文
MiniMax M3 是 MiniMax 发布的新一代旗舰语言模型,主打 Coding、Agentic 能力、1M 上下文和原生多模态能力,适合代码开发、智能体任务、长文档处理、工具调用、多步推理以及图片、视频理解等场景。 -
Step 3.7 Flash - 阶跃星辰推出的面向真实 Agent 场景的高效率多模态模型
Step 3.7 Flash 是阶跃星辰推出的高效率 Flash 多模态模型,面向真实世界 Agent、智能编程、视觉搜索、工具调用和企业任务场景,支持 256k 上下文、原生图像理解、可靠工具编排和主流 Agent 生态兼容。 -
Claude Opus 4.8 - Anthropic旗舰AI模型,支持复杂编码与长程Agent任务
Claude Opus 4.8 是 Anthropic 发布的旗舰级混合推理模型,面向复杂编码、长程 Agent 任务、企业级知识工作和高要求专业场景。模型支持 1M tokens 上下文窗口、128k tokens 最大输出,并通过自适应思考与 effort 控制,在推理质量、响应速度和成本之间进行调节。相比前代版本,Opus 4.8 强化了代码可靠性、工具调用、长期任务执行和不确定性提示能力,… -
SkyClaw-v1.0:昆仑万维推出的高性能 Agent 模型,支持百万token上下文
昆仑万维集团推出高性能 Agent 模型 SkyClaw-v1.0,支持百万 token 上下文和多步任务执行,性能超越多个主流开源模型,并提供极具竞争力的定价和免费试用服务,推动国产大模型在智能体生态建设与长文本处理领域的进步。 -
LongCat-Video-Avatar 1.5:美团开源的音频驱动数字人视频生成模型
LongCat-Video-Avatar 1.5 是美团 LongCat Team 开源的音频驱动数字人视频生成模型,基于 LongCat-Video 构建,支持单人、多人与多音频输入,可生成唇形同步、动作自然、身份稳定的虚拟人视频,适用于直播、讲解、表演、电商营销和动画角色等场景。 -
Lance - 字节跳动开源的原生统一多模态模型,支持图像与视频理解生成编辑
Lance 是字节跳动开源的 3B 原生统一多模态模型,支持图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解等任务,适合多模态研究、视觉生成实验和开发者二次开发。 -
Qwen3.5-LiveTranslate - 阿里通义千问推出的多语言实时同传模型
Qwen3.5-LiveTranslate-Flash 是阿里云通义千问团队发布的新一代多语言实时音视频同声传译模型,基于 Qwen3.5-Omni Thinker-Talker 架构。相比前代 Qwen3-LiveTranslate-Flash 实现全面升级:输入语种从 18 种提升至 60 种,输出音频语种从 10 种提升至 29 种,端到端字均延迟降至 2.8 秒。新增实时音色克隆(翻译后保… -
Qwen3.7-Max:阿里发布的新一代千问旗舰模型
Qwen3.7-Max 是阿里云通义千问团队发布的 Qwen 3.7 系列旗舰模型,定位为面向智能体时代的全能基座。模型在编程智能体(SWE-Pro、SciCode、Terminal-Bench 等多项领先)、通用智能体(MCP-Mark、MCP-Atlas、Skillbench 等多项领先)、高难度推理(GPQA Diamond 92.4、HMMT 97.1、Apex 44.5)上均达到前沿水平… -
Gemini Omni - Google 推出的统一多模态 AI 模型,任意输入生成视频并支持对话式编辑
Gemini Omni 是 Google DeepMind 于 Google I/O 2026 发布的统一多模态模型系列,核心能力是从任意输入(文本、图像、音频、视频)创造任意输出,首发方向为视频生成与对话式视频编辑。该模型将 Gemini 的推理智能与生成媒体模型结合,能模拟真实物理世界、理解历史文化科学背景,并通过自然语言对话实现多轮视频编辑(背景替换、风格迁移、角色调整等),每次编辑在前一次… -
Gemini 3.5 Flash - Google 发布的高速前沿模型,编程与 Agent 能力超越上代 Pro
Gemini 3.5 Flash 是 Google 发布的 Gemini 3.5 家族首发模型,编程与 Agent benchmark 超越 3.1 Pro,4 倍速度,100 万 token 上下文,已全线上线。在 AIHub 了解更多。 -
GPT-5.5 Instant:OpenAI 推出的新一代 ChatGPT 默认模型
GPT-5.5 Instant 是 OpenAI 推出的 ChatGPT 新默认模型,替代 GPT-5.3 Instant,幻觉率降低 52.5%,数学与多模态推理能力显著提升,支持过往对话与 Gmail 个性化上下文。 -
MiMo-V2.5-Pro - 小米开源的旗舰级 Agent 与软件工程大模型
Xiaomi MiMo-V2.5-Pro 是小米推出的旗舰级 Agent 与软件工程大模型,采用 1.02T 参数 MoE 架构,42B 激活参数,支持最高 100 万 tokens 上下文,适合复杂代码生成、长程智能体任务、工具调用和工程自动化场景。 -
Hy3 preview - 腾讯混元开源的快慢思考融合的混合专家模型
Hy3 preview 是由腾讯混元团队开发的一个拥有 2950 亿参数的混合专家(MoE)模型,其中激活参数为 210 亿,MTP 层参数为 38 亿。Hy3 preview 是首个基于我们重构后的基础设施训练而成的模型,也是迄今为止我们发布的最强模型。它在复杂推理、指令遵循、上下文学习、代码生成和智能体任务等方面均有显著提升。 -
DeepSeek-V4:DeepSeek 推出的新一代开源大语言模型
DeepSeek-V4 是 DeepSeek 推出的新一代开源大语言模型系列,面向长上下文理解、复杂推理、代码生成和 Agent 自动化任务场景。 -
GPT‑5.5:OpenAI 推出的新一代旗舰AI模型
GPT-5.5 是 OpenAI 发布的新一代智能模型,面向编程、知识工作、数据分析、文档处理、科研辅助和软件操作等复杂任务设计,具备更强的长期推理、工具调用、任务规划和自主执行能力,可在 ChatGPT、Codex 及即将上线的 API 中使用。 -
MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型,支持百万上下文
Xiaomi MiMo-V2.5 是小米 MiMo 团队推出的原生多模态 Agent 大模型,支持视觉、音频、文本等多模态理解,并具备较强的智能体任务处理能力。该模型采用 310B 参数 Sparse MoE 架构,激活参数为 15B,支持最高 100 万 tokens 上下文,适合多模态问答、图像与视频理解、文档分析、图表推理和高性价比 Agent 应用开发。 -
ChatGPT Images 2.0:OpenAI 推出的新一代图像生成模型
ChatGPT Images 2.0 是 OpenAI 2026年4月推出的图像生成模型,支持精准文字渲染、多语言、2K 分辨率和推理式生成。在 AIHub 了解完整功能与使用方法。 -
Kimi K2.6 - 月之暗面最新开源大模型,代码与 Agent 集群能力行业领先
Kimi K2.6 是月之暗面开源的大语言模型,代码生成和 Agent 集群能力行业领先,支持超长上下文和复杂软件工程任务。适合开发者和技术团队使用,在AIHub了解更多。 -
GPT-Rosalind:OpenAI 推出的首个生命科学专用推理模型
GPT-Rosalind 是 OpenAI 发布的首个面向生命科学领域的专用模型,专注于生物学、药物发现和转化医学的深度推理。该模型擅长处理分子、蛋白、基因等多模态生物数据,能够辅助科研人员完成文献综述、实验规划和数据分析等高耗时工作。目前以 Research Preview 形式面向美国合规企业客户开放。 -
Claude Opus 4.7 - Anthropic 最新旗舰模型,聚焦高难度编码与长任务 Agent
Claude Opus 4.7 是 Anthropic 2026 年 4 月发布的旗舰大模型,在高难度编码、长任务 Agent、视觉理解上升级显著。在 AIHub 了解 Opus 4.7 的功能、定价与迁移注意事项。 -
HappyHorse - 阿里巴巴推出的 AI 视频生成模型
HappyHorse 是阿里巴巴 ATH 创新事业部研发的 AI 视频生成模型,支持文本转视频、图像转视频,以及带原生音频和不带音频的多种生成模式。 -
Muse Spark - Meta AI 推出的原生多模态推理模型
Muse Spark 是 Meta AI 推出的原生多模态推理模型,支持工具调用、视觉链式思考和多智能体协作,已用于 Meta AI app 与网页端,并将逐步接入更多 Meta 产品生态。 -
Qwen3.6-Plus - 阿里新一代多模态推理与智能体编程模型
Qwen3.6-Plus 是阿里巴巴推出的新一代多模态大模型,支持文本、图像、视频输入,具备逻辑推理、代码生成、工具调用、图像与视频理解等能力,适合智能体、企业应用与自动化工作流场景。官方通过阿里云百炼 API 提供接入。 -
GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型
GLM-5V-Turbo 是智谱 AI 推出的首个多模态 Coding 基座模型,面向视觉编程任务,支持图像、视频、文本、文件多模态输入,200K 上下文窗口。深度适配 Agent 工作流,可与 Claude Code、OpenClaw 等 Agent 协同,完成前端复刻、代码调试、GUI 自主探索等视觉编程场景,在 AndroidWorld、WebVoyager、PinchBench 等基准测试… -
Xiaomi MiMo-V2-TTS:小米语音合成大模型,自然语言控制情感风格,支持方言、角色扮演与歌声合成
Xiaomi MiMo-V2-TTS 是小米自研的语音合成大模型,基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经超亿小时语音数据预训练与多维度强化学习。支持自然语言指令定制说话风格、多粒度情感控制、非语言声学事件生成(咳嗽、叹气、笑声)、方言、角色扮演,以及说话与唱歌统一模型,现已开放 API 接入。 -
Xiaomi MiMo-V2-Omni:小米全模态 Agent 基座模型,图像视频音频文本统一理解
Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型,将图像、视频、音频编码器融合进统一骨干网络,原生支持结构化工具调用、函数执行与 UI 定位。音频理解超越 Gemini 3 Pro,图像理解超越 Claude Opus 4.6,多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2,支持超过 10 小时连续音频理解,现已开放 AP… -
Xiaomi MiMo-V2-Pro:小米发布的最新旗舰 Agent 基座模型
Xiaomi MiMo-V2-Pro 是小米面向 Agent 时代发布的旗舰基座模型,总参数量超 1T(激活参数 42B),支持 1M 超长上下文,在 Artificial Analysis 全球综合智能榜单位列第八、国内第二。在 OpenClaw、Claude Code 等 Agent 框架中端到端任务完成能力整体超越 Sonnet 4.6,逼近 Opus 4.6,API 定价仅为同级的 1/5… -
MiniMax M2.7 - MiniMax 最新发布的旗舰大语言模型,具备自我进化能力
MiniMax M2.7 是 MiniMax 最新旗舰大模型,首次实现模型深度参与自身迭代,软件工程 SWE-Pro 得分 56.22% 接近 Opus,专业办公 GDPval-AA 开源最高,OpenClaw 生态 MM-Claw 得分 62.7% 接近 Sonnet 4.6,支持 Agent Teams 多智能体协作,现已全量上线 MiniMax Agent 与 API 开放平台。 -
讯飞星辰MaaS - 科大讯飞推出的模型服务平台,支持模型调用、体验与一键部署
讯飞星辰 MaaS 平台是科大讯飞面向开发者打造的模型服务平台,提供模型集市、数据处理、模型精调、模型托管与模型评测等能力,构建起覆盖“数据—模型—服务”的全链路工程化方案。平台既支持星火系列模型,也支持第三方开源模型与多模态任务,适合做模型调用、微调训练和 AI 应用落地。 -
GPT-5.4 - OpenAI 新一代专业工作模型,擅长知识工作、编码与计算机操作
GPT-5.4 是 OpenAI 于 2026 年 3 月发布的前沿模型,主打专业工作场景,整合了更强的推理、编程、计算机使用和工具调用能力。它支持在 ChatGPT、API 和 Codex 中使用,并提供 GPT-5.4 Pro 版本,适合处理文档、表格、演示文稿、软件开发及多步骤智能体任务。 -
Seedance 2.0:字节跳动推出的新一代AI视频生成模型
Seedance 2.0 是字节跳动发布的专业级视频生成模型,支持文生视频、图生视频与多模态混合参考输入,具备物理一致性建模、导演级可控能力与音视频同步生成能力,已接入豆包、即梦并上线火山方舟体验中心。 -
万联摩尔 - 万联易达推出的全产业AI大模型
万联摩尔是万联易达自研发布的全产业AI大模型,产品设计从“解决实际问题”出发,而非技术堆砌。目前万联摩尔已建成 20 余款智能体产品矩阵。具备产业知识问答、数据查询、AI研报创作、价格预测、企业洞察等功能。 -
SophNet - DeepSeek API 推理速度最快的平台,没有之一
SophNet独家推出DeepSeek 满血极速版,TPS指标超100,是其他API平台的3~5倍,是目前国内DeepSeek API 推理速度最快的平台,没有之一。 -
AI Ping:一站式大模型服务评测与 API 调用平台
AI Ping 是一款大模型服务评测与统一 API 调用平台,提供 7×24 小时模型性能榜单、延迟与稳定性监控、智能路由调度以及多模型统一接口接入。支持跨供应商快速选型、透明查看 Token 消耗与调用记录,适合开发者、团队和企业进行模型对比、集成与成本优化。 -
Nano Banana Pro:谷歌推出的AI图像生成和编辑模型
Nano Banana Pro是由 Google DeepMind 基于 Gemini 3 Pro 打造的图像生成与编辑模型,支持多语言精准文本渲染、高保真创意控制、真实世界知识融合与专业级输出,适用于从日常创作到商业广告的大规模视觉生产场景。 -
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus是DeepSeek开源LLM优化版,强化语言一致性、Code/Search Agent性能,提供稳定高效代理任务解决方案 -
LongCat-Flash-Thinking:美团 LongCat 团队开源的推理AI模型
LongCat-Flash-Thinking 是美团开源的大推理模型,具备高效推理与工具调用能力,在数学、逻辑和编程任务中表现领先,支持长链推理与多框架部署。 -
Grok 4 Fast:xAI 最新发布的低成本高效推理模型,支持 200 万 token 长上下文
Grok 4 Fast 是 xAI 最新发布的低成本高效推理模型,支持 2M token 长上下文、工具浏览能力与统一架构,在多个 benchmark 中性能与 Grok 4 近似但成本大幅降低,适合企业与开发者部署使用。 -
Qwen3-ASR-Flash:阿里通义千问最新推出的语音识别模型
Qwen3-ASR-Flash 是通义千问系列最新语音识别模型,基于 Qwen3 底座与千万小时级 ASR 训练,支持 11 种语言与多方言,提供上下文定制与歌声识别,具备语种识别、非人声拒识与强鲁棒性,适配多噪声与长难句场景。








































