-
OpenAI发布GPT-OSS:开源权重大模型,原生支持128K上下文
2025年8月5日,OpenAI 宣布推出全新开放权重大语言模型系列 GPT-OSS,这是自 GPT-2 以来该机构首次发布支持本地部署的模型权重。新系列包括两个版本:轻量的 GPT-OSS-20B 和高性能的 GPT-OSS-120B,均采用 Mixture-of-Experts(MoE)架构,在保持生成能力的同时显著降低计算资源消耗。 相比传统闭源模型,GPT-OSS 系列具备更强的开放性与可…... -
Manus 推出 Wide Research 功能,多智能体并发处理大规模任务
2025年8月1日,AI智能体平台 Manus 上线了名为「Wide Research」的新功能,允许用户通过多个 AI 智能体并发处理大规模任务,如批量生成设计稿、评选MBA项目或分析股票表现。这项功能已率先向 Pro 用户开放,后续将逐步开放给 Plus 和 Basic 用户。 Wide Research 的核心亮点 1、系统级并行处理与智能体协作 Wide Research 的关键在于其系统…... -
阿里通义开源视频生成模型 Wan2.2
2025 年 7 月 28 日,阿里巴巴通义实验室正式开源了 Wan2.2,这是一款专为电影级视觉控制和高质量视频创作设计的开源视频生成模型。Wan2.2 通过混合专家(MoE)架构,实现了对电影镜头语言的深度理解和还原,支持多维度的视觉呈现,如光影、色彩和构图。此外,它在数据训练规模和专业美学训练上实现了双重升级,显著提升了复杂场景的表现力和美学表现能力。 核心功能 文生视频:具备电影级视觉控制…... -
GLM-4.5 发布,面向推理、代码与智能体的开源 SOTA 模型
2025 年 7 月 28 日,智谱 AI 团队正式发布了新一代旗舰模型 GLM-4.5,这是一款专为智能体应用打造的基础模型,标志着开源模型在推理、代码生成和智能体能力上达到了新的高度。 GLM-4.5 采用了混合专家(MoE)架构,总参数量达 3550 亿,激活参数 320 亿。其姊妹模型 GLM-4.5-Air 则更为精简,总参数量 1060 亿,激活参数 120 亿。两者均在 15 万亿 …... -
通义千问发布Qwen3-Coder,推动代理编程领域发展
近日,阿里通义千问团队发布了其最新的编程模型——Qwen3-Coder,旨在为开发者提供更强大的代码生成和代理编程能力。Qwen3-Coder-480B-A35B-Instruct 是目前最强大的版本,采用了 4800 亿参数和 35B 激活参数的 MoE(混合专家)模型,能够支持原生 256K token 的上下文,并通过 YaRN 技术扩展至 1M token。该模型在代理编程、浏览器使用和工…... -
字节跳动发布 Trae 2.0 ,全新 SOLO 模式来袭
近日,字节跳动推出了 Trae 2.0,带来了革命性的 SOLO 模式,致力于改变传统软件开发的工作流程。SOLO 模式不仅是一个“写代码的机器人”,它被重新定义为一位“上下文工程师”,能够理解整个开发过程中的产品需求、技术方案、代码编写、调试和部署等环节,无需工具切换或重复沟通。 产品亮点 一体化 SOLO 模式:Trae SOLO 能够独立完成从需求生成到产品部署的全过程。它集成了编辑器、浏览…... -
OpenAI 正式发布AI智能体 ChatGPT Agent
2025 年 7 月 18 日,OpenAI 正式发布 ChatGPT Agent,这一创新工具将 AI 的对话能力与网络交互能力深度融合,为用户带来前所未有的自动化任务处理体验。ChatGPT Agent能够理解自然语言指令,主动选择并使用合适的网络工具完成复杂任务,如财务研究、在线表格填写、幻灯片制作等,显著提升工作效率。 核心功能亮点 任务自动化:ChatGPT Agent可处理多种复杂任务…... -
美图推出RoboNeo,专注影像生产力的 AI 智能体
近日,美图公司正式推出 RoboNeo,一款专注于影像生产力的 AI 智能体产品。RoboNeo 旨在通过自然语言交互,帮助用户轻松完成修图、设计和视频制作等任务,让每位用户都能成为“发号施令的甲方”,仅通过语音指令即可完成复杂的视觉创作需求。 RoboNeo 的核心功能包括智能修图、AI 设计生成、视频智能处理和多模态创作。用户可以通过简单的指令,如“帮我换一个新发型”或“把背景换成海边”,快速…... -
字节跳动推出小荷 AI 医生,开启健康管理便捷新时代
近日,字节跳动正式推出其首款独立 AI 医疗助手应用 ——“小荷 AI 医生”,致力于为用户打造贴心专属的健康管家,标志着公司在医疗科技领域迈出重要一步。 小荷 AI 医生功能丰富且实用。在健康咨询方面,用户无需排队挂号,随时随地就能获取专业健康指导。无论是疾病自查、用药参考,还是日常健康建议,它都能快速响应。并且,该应用会主动收集如症状持续时间、过敏史等关键信息,让给出的解答更全面、精准和个性…... -
B站推出“代号H”AI创作工具,发力视频播客
2025年7月7日,B站宣布推出内部代号为“代号H”的AI创作工具,并同步启动视频播客创作者扶持计划,标志着平台在AI内容创作领域的又一重要布局。 “代号H”是一款专为视频播客创作者设计的AI工具,支持文案与音频两种输入格式,可自动生成与内容匹配的视频画面。该工具目前主要适配播客及泛知识杂谈类内容,具备高效生成能力——千字内容可在6分钟内完成视频制作,未来有望进一步压缩至3分钟。据内部人士透露,工…... -
阿里推出ThinkSound音频生成模型,可像“专业音效师”一样思考
2025年7月4日,阿里通义实验室正式发布了旗下首个音频生成模型——ThinkSound。这一突破性技术首次将思维链(CoT)概念应用于音频生成领域,让AI可以像“专业音效师”一样理解画面事件与声音的关系,突破了传统音频生成的局限。 ThinkSound的核心亮点在于其精确的空间音频生成能力,不仅能够为视频画面配音,更能根据画面内容做出深入的推理,生成高保真、时序精确的音效。这一技术的发布,将大大…... -
豆包上线“深入研究”功能,支持免费体验
2025年6月30日,豆包宣布其全新功能“深入研究”已在豆包App、网页版和电脑版正式开启测试,用户可以免费体验这一功能。 ☞ 立即免费体验:www.doubao.com “深入研究”功能基于强大的搜索、推理和Agent能力,旨在帮助用户高效、全面地处理复杂任务。无论是长途旅行攻略、复杂购买决策、最新政策解读,还是商业科技趋势等需要大量资料和时间研究的问题,借助这一功能,用户可以在几分钟内生成初步…... -
百度正式开源文心4.5系列模型
2025年6月30日,百度宣布文心4.5系列模型正式开源。此次开源包括10款不同规模的模型,其中包括参数量为47B和3B的混合专家(MoE)模型,以及0.3B的稠密参数模型。文心4.5的开源文件包括预训练权重和推理代码,已上传至Hugging Face、GitHub以及飞桨星河社区,供全球开发者使用。 主要技术特点 1. 多模态混合专家模型预训练 文心4.5通过联合训练文本和视觉两种模态来提高模型…... -
美团推出智能经营助手“袋鼠参谋”,助力中小商家精细化运营
AIHub最新消息,近日美团推出AI智能运营辅助产品 “袋鼠参谋”,定位为基于大语言模型的本地商业智能助手,专为中小商家提供营销诊断、经营优化、行业数据解读等多项实用功能。 袋鼠参谋融合美团多年积累的本地生活服务数据与AI能力,具备强大的自然语言理解与多模态交互能力,支持商家通过文字、语音、图片、文件等方式提出问题,系统可实时生成个性化的运营建议与决策支持。无论是选址开店、菜品优化,还是营销转化、…... -
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025年6月26日,阿里巴巴达摩院通义千问团队正式发布其最新多模态模型 —— Qwen VLo,标志着通义在图文理解与生成能力上的重大突破,实现了从“看懂”世界到“描绘”世界的跨越式提升。 Qwen VLo 是一款统一的视觉-语言模型,具备图文双向交互能力,不仅能理解图像内容,还可根据自然语言指令进行高质量图像生成与编辑。模型支持风格迁移、背景更换、物体添加等复杂视觉操作,同时具备视觉感知任务能…...