-
阶跃星辰发布 Step 3.7 Flash:面向真实 Agent 场景的高效率多模态模型
2026年5月29日,阶跃星辰正式发布 Step 3.7 Flash,这是一款面向真实世界 Agent 场景的新一代高效率 Flash 模型。与传统偏问答的模型不同,Step 3.7 Flash 更强调“理解之后执行”,围绕多模态感知、网页与视觉搜索、工具调用、代码执行和 Agent 工作流进行了系统增强。 Step 3.7 Flash 采用稀疏 MoE 视觉语言模型架构,具备文本、图像、代码、搜…- 896
- 0
-
Step 3.7 Flash - 阶跃星辰推出的面向真实 Agent 场景的高效率多模态模型
Step 3.7 Flash 是阶跃星辰推出的高效率 Flash 多模态模型,面向真实世界 Agent、智能编程、视觉搜索、工具调用和企业任务场景,支持 256k 上下文、原生图像理解、可靠工具编排和主流 Agent 生态兼容。- 877
- 0
-
LongCat-Video-Avatar 1.5:美团开源的音频驱动数字人视频生成模型
LongCat-Video-Avatar 1.5 是美团 LongCat Team 开源的音频驱动数字人视频生成模型,基于 LongCat-Video 构建,支持单人、多人与多音频输入,可生成唇形同步、动作自然、身份稳定的虚拟人视频,适用于直播、讲解、表演、电商营销和动画角色等场景。- 789
- 0
-
Lance - 字节跳动开源的原生统一多模态模型,支持图像与视频理解生成编辑
Lance 是字节跳动开源的 3B 原生统一多模态模型,支持图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解等任务,适合多模态研究、视觉生成实验和开发者二次开发。- 2.2k
- 0
-
MiMo-V2.5-Pro - 小米开源的旗舰级 Agent 与软件工程大模型
Xiaomi MiMo-V2.5-Pro 是小米推出的旗舰级 Agent 与软件工程大模型,采用 1.02T 参数 MoE 架构,42B 激活参数,支持最高 100 万 tokens 上下文,适合复杂代码生成、长程智能体任务、工具调用和工程自动化场景。- 1k
- 0
-
MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型,支持百万上下文
Xiaomi MiMo-V2.5 是小米 MiMo 团队推出的原生多模态 Agent 大模型,支持视觉、音频、文本等多模态理解,并具备较强的智能体任务处理能力。该模型采用 310B 参数 Sparse MoE 架构,激活参数为 15B,支持最高 100 万 tokens 上下文,适合多模态问答、图像与视频理解、文档分析、图表推理和高性价比 Agent 应用开发。- 1.9k
- 0
-
Kimi 发布并开源 K2.6:Agent、长程编码与多模态能力全面升级
月之暗面正式发布并开源 Kimi K2.6,新模型支持文本、图片、视频输入,强化长程代码执行、Agent 集群协作与多步工具调用能力,并已上线 Kimi、API 和 Kimi Code。- 7.6k
- 0
-
Kimi K2.6 - 月之暗面最新开源大模型,代码与 Agent 集群能力行业领先
Kimi K2.6 是月之暗面开源的大语言模型,代码生成和 Agent 集群能力行业领先,支持超长上下文和复杂软件工程任务。适合开发者和技术团队使用,在AIHub了解更多。- 8.8k
- 0
-
LLaMA-Factory Online:零代码在线大模型微调平台
LLaMA-Factory Online是一个零代码低门槛的大语言模型训练与微调平台,无需编写代码通过交互式选参即可轻松完成大模型微调任务,支持SFT、DPO等训练方法和Lora、Freeze调优算法,提供高性能GPU卡进行单机多卡、多机多卡分布式训练- 4.3k
- 0
-
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus是DeepSeek开源LLM优化版,强化语言一致性、Code/Search Agent性能,提供稳定高效代理任务解决方案- 4.4k
- 0
-
Hunyuan-GameCraft:腾讯混元等开源的高动态交互式游戏视频生成框架
Hunyuan-GameCraft 是由腾讯混元团队与华中科技大学联合推出的开源交互式游戏视频生成框架,基于HunyuanVideo底模,只需输入一张图 + 文字描述+动作指令(按键盘方向键)就能生成高动态、分钟级长视频- 5.8k
- 0
-
Baichuan-M2:百川智能开源的医疗增强推理大模型
Baichuan-M2-32B 是百川智能推出的医疗增强推理模型,专为真实世界的医疗推理任务设计。该模型基于 Qwen2.5-32B 基座,通过创新的大型验证器系统(Large Verifier System)从真实世界的医疗问题出发,进行医疗领域后训练对齐,在保持模型通用能力的同时,实现了医疗效果的突破性提升。- 4.3k
- 0
-
Matrix-Game 2.0:昆仑万维开源的交互式AI世界模型
Matrix-Game 2.0 是昆仑万维发布的国产开源交互式世界模型,能够以 25FPS 实时生成分钟级长交互视频,并在不同风格与环境下保持良好的泛化与物理一致性。它面向游戏开发、虚拟现实与影视创作等应用,旨在为虚拟世界构建提供可落地的生成式基座,推动具身智能与空间智能研究。- 3.1k
- 0
-
Skywork UniPic 2.0:昆仑万维开源的统一多模态生成与编辑模型
UniPic 2.0 是 Skywork 推出的统一多模态模型,基于 SD3.5-Medium 的 2B DiT,结合“在线强化学习+双任务渐进强化”,在生成与编辑上优于同级开源模型,并扩展为理解-生成-编辑一体的统一模型,提供技术报告、代码与权重。- 3.3k
- 0
-
GLM-4.5V:智谱开源的多模态视觉推理大模型
GLM-4.5V 是智谱基于 GLM-4.5-Air 文本基座构建的开源视觉-语言模型,面向图像、视频、文档与 GUI 屏幕等全场景的多模态推理与理解。- 4.6k
- 0
-
GPT-OSS:OpenAI开源的大语言模型,支持本地部署与高效推理
GPT-OSS是 OpenAI 发布的开源权重大语言模型系列,包含 20B 与 120B 两个版本,支持原生 128K tokens 长上下文、MoE 架构高效推理、微调与智能体功能,适合本地部署与企业级生成式应用,采用 Apache 2.0 许可协议。- 5.9k
- 0
-
Qwen-Image:阿里通义千问推出的图像生成基础模型
Qwen-Image 是通义千问系列的图像生成基础模型,具备卓越的文本渲染和图像编辑能力,支持多种艺术风格与复杂场景,广泛应用于海报、PPT及创意设计,推动视觉内容创作发展。- 5.1k
- 0
-
Step 3:阶跃星辰开源的多模态推理模型
Step 3 是阶跃星辰团队最新推出并开源的多模态推理模型,采用 MoE 架构,总参数量 321B,激活参数量 38B,上下文长度64k,拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。- 5.7k
- 0
-
Wan2.2 - 阿里通义开源的视频和图像生成模型
Wan2.2 是由阿里通义大模型团队发布的开源视频生成模型,专为电影级视觉控制和高质量视频创作设计。它通过混合专家(MoE)架构,实现了对电影镜头语言的深度理解和还原,支持多维度的视觉呈现,如光影、色彩和构图。- 13.2k
- 0
-
FLUX.1 Kontext [dev]:Black Forest Labs开源的图像编辑模型
FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的开源图像编辑模型,支持通过自然语言对图像进行局部修改,具备风格与角色一致性保持、多轮稳定编辑等能力。该模型基于 Flow Transformer 架构,编辑精度高、响应速度快,适合创作者、开发者和研究人员用于插画创作、视觉叙事和图像生成研究。- 7.1k
- 0
-
MiniMax-M1:MiniMax开源的大规模混合架构推理模型
MiniMax-M1 是MiniMax(稀宇科技)推出的全球首个开源大规模混合架构推理模型,具备卓越的长上下文处理能力和高效的推理性能。其支持高达100万上下文输入和8万Token输出,采用闪电注意力机制,显著提升算力效率。同时,该模型在软件工程、长上下文理解等复杂场景中表现优异,性价比极高,且提供免费不限量使用和低价格API服务。- 4.5k
- 0
-
dots.llm1:小红书开源的 MoE 架构大语言模型
dots.llm1是小红书开源的 MoE 架构大语言模型,拥有 1420 亿参数,推理仅激活 140 亿,兼顾性能与效率。模型基于 11.2 万亿非合成高质量数据训练,支持中英文,具备 32K 长上下文处理能力,并开放中间训练 checkpoint,适合问答、内容生成、语义理解等多种应用场景。- 4k
- 0
-
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
Step1X-3D 是由阶跃星辰正式发布并开源的一款3D大模型。该模型是继图像、视频、语音、音乐等模态后,阶跃星辰在多模态AI方向的最新成果,专注于生成高保真、可控的3D内容。- 4.9k
- 0
-
Seed1.5-VL:字节跳动推出的视觉-语言多模态基础模型
Seed1.5-VL 是字节跳动推出的视觉-语言多模态基础模型,结合图像编码器与200亿激活参数的大语言模型,具备出色的图像、视频理解与推理能力。在60项基准测试中获得38项SOTA,广泛应用于视频问答、图表理解、GUI智能体等任务,表现稳定、推理强大。- 3.9k
- 0



















![FLUX.1 Kontext [dev]:Black Forest Labs开源的图像编辑模型](https://static.aihub.cn/wp-content/uploads/2025/06/FLUX-1-Kontext-dev.webp)



