-
豆包视频功能全面升级,支持更多风格与细腻动画体验
2025年4月29日,豆包官方宣布其视频生成功能迎来全面升级,带来在语义理解、影调画质、风格多样性和动作连贯性等方面的显著提升。本次升级由豆包自研的Seedance视频生成模型提供技术支持。 升级亮点包括: 更精准的语义理解,生成内容更贴合指令意图 更细腻的影调与画质表现,画面观感大幅提升 更自然的人物动作连贯性,动画效果更流畅 新增多种风格,如彩铅、积木、黑白素描、像素、3D动画等,满足更多创意…... -
ChatGPT 搜索新增网购功能,对话获得个性化商品推荐
2025年4月29日,OpenAI宣布对其 ChatGPT Search 进行了重要的功能升级,新增了网购功能,旨在为用户提供更便捷的购物体验。用户可以通过自然对话与 ChatGPT 互动,获取个性化商品推荐,并实现一站式购物体验。 此次升级亮点包括: 改进商品搜索结果,提升匹配度与相关性 丰富展示商品图片、价格和用户评价 提供直达购买链接,实现一站式购物体验 OpenAI特别强调,推荐商品独立选…... -
通义灵码正式集成Qwen3模型,编程智能体即将上线
2025年4月29日,阿里巴巴正式发布并开源了全新一代大模型Qwen3,涵盖8款混合推理模型,包括旗舰版 Qwen3-235B-A22B 和轻量版 Qwen3-30B-A3B。 Qwen3在代码生成、数学推理、通用能力等多个领域基准测试中表现出色,与 DeepSeek-R1、Grok-3、Gemini-2.5-Pro 等顶尖模型竞争力十足。 目前,阿里旗下通义灵码已率先完成对Qwen3的集成,用户…... -
阿里巴巴发布Qwen3开源大模型,性能全面对标国际顶级模型
2025年4月29日,阿里巴巴正式发布旗下全新一代开源大语言模型 —— Qwen3,标志着其在人工智能基础模型领域迈出关键一步。 Qwen3系列覆盖从小型到超大规模的多种模型规格,包括旗舰版 Qwen3-235B-A22B 和轻量版 Qwen3-30B-A3B,并全面开源,支持研究与商用开发。 在编码、数学推理、综合语言理解等多项国际基准测试中,Qwen3取得了与 DeepSeek-R1、Grok…... -
微软发布全新Windows桌面 Agent 操作系统 UFO²
近日,微软正式发布全新桌面智能代理操作系统 UFO²(Desktop AgentOS),作为开源项目AgentUFO的重磅升级版。UFO²深度整合Windows平台,支持通过自然语言指令自动化管理多应用程序操作,大幅提升任务执行效率与智能化水平。 UFO²引入了多项创新功能,包括深度系统API调用、混合控制执行(GUI操作与API调用自适应)、智能推测执行机制以及知识增强检索系统。同时,UFO²即…... -
MoonshotAI开源Kimi-Audio,重新定义音频处理领域
近日,MoonshotAI 开源了其最新音频基础模型 Kimi-Audio,这一模型凭借其卓越的性能和创新架构,有望在音频处理领域掀起一场变革。 架构革新 Kimi-Audio 采用了集成式架构,包含音频分词器、音频大模型和音频去分词器三大核心组件。音频分词器将输入音频转化为离散语义 token 和连续声学向量,音频大模型基于 Transformer 架构处理多模态输入,而音频去分词器则通过流匹配…... -
OpenAI免费开放轻量版Deep Research
2025年4月25日,OpenAI宣布正式向所有用户免费开放其AI研究代理工具Deep Research的轻量版。这款工具由新发布的o4-mini模型驱动,保留了原版的核心智能和分析能力,现已面向免费用户逐步开放。 Deep Research工具亮点: ✅ 自动研究:可自主浏览网络,分析上百个网页与PDF文档; ✅ 快速生成报告:5至30分钟内生成结构清晰、附带引用的研究成果; ✅ 智能引用:报告…... -
Trae 重磅更新,支持 AI 编程 + 智能体 + MCP
近日, 字节跳动旗下 AI 编程工具 Trae 迎来重大更新,正式支持 AI 编程、智能体和 MCP(多智能体协作协议)功能,为开发者带来前所未有的高效开发体验。 核心亮点 AI 编程 + MCP 强强联合:Trae 现已支持通过自然语言描述直接生成代码和调用工具,实现“言出法随”的开发模式。开发者无需手动编写代码或配置工具,只需输入需求,Trae 即可自动完成从设计到开发的全流程。 智能体功能升…... -
百度推出心响App,打造手机端超级智能体产品
近日,百度正式上线一款全新 AI 应用——心响 App,定位为「AI 任务完成引擎」,致力于成为用户的“超级大脑 + 最强辅助”。区别于传统对话式助手,心响不仅能理解用户指令,还能智能拆解任务、动态执行操作并交付可视化结果,实现真正意义上的全流程托管式 AI 协作体验。 心响支持旅游规划、图表生成、定时提醒、儿童故事、恋爱对话模拟等多个高频场景,用户只需一句话,即可触发一整套智能工作流。目前 Ap…... -
字节跳动推出扣子空间,多AI智能体平台
2025年4月19日,字节跳动coze团队正式推出扣子空间,一个创新的AI协同办公平台,旨在让用户与AI Agent高效协作,完成各种复杂任务。扣子空间现已开启内测,为用户提供从问题解答到任务执行的全方位支持。 核心亮点 任务自动化:扣子空间能够自动分析用户需求,将其拆解为多个子任务,并自主调用浏览器、代码编辑器等工具执行任务,最终输出完整的任务报告,如网页、PPT、飞书文档等。 专家Agent生…... -
豆包1.5·深度思考模型发布,开启AI推理新时代
2025年4月17日,火山引擎在FORCE LINK AI创新巡展·杭州站上,正式发布豆包1.5·深度思考模型,标志着AI技术在推理和多模态交互领域迈入新阶段。该模型具备强大的推理能力、低延迟响应和多模态交互功能,能够处理复杂任务并广泛应用于多个领域。 核心亮点 强大推理能力:豆包1.5·深度思考模型在数学、代码、科学等专业领域表现出色,达到或接近全球第一梯队水平。它还具备优秀的泛化能力,能够胜任…... -
OpenAI 发布新一代推理模型:o3 和 o4-mini,支持图像深度思考和自主调用工具
2025 年 4 月 16 日,OpenAI 正式发布了其最新的人工智能推理模型——OpenAI o3和OpenAI o4-mini,标志着其AI推理能力的重大突破。这两款模型是 OpenAI o 系列的最新成果,代表了该公司在 AI 推理技术上的重大突破。 o3:强大的多模态推理模型 o3 是 OpenAI 目前最强大的推理模型,它在多个领域表现出色,包括数学、编程、科学和视觉感知。该模型能够独…... -
OpenAI 发布 GPT-4.1:支持百万上下文的多模态旗舰模型
2025 年 4 月 14 日,OpenAI 正式发布全新大模型系列 GPT-4.1,在代码能力、指令遵循、长上下文处理与多模态理解等多个维度实现跨代提升。该模型可通过 API 接入,支持最长 1,000,000 tokens 上下文窗口,并在图像、语音、文本处理方面实现高度统一。 此次发布包括 GPT-4.1 标准版、mini 和 nano 三个子型号,分别面向高性能、低延迟与极致轻量场景。官方…... -
阿里通义发布 LHM,一张照片生成完整可驱动的 3D 数字人
近日,阿里通义团队开源发布了全新 3D 人体建模框架 LHM,该模型只需一张正面照片,即可在数秒内生成完整可驱动的 3D 数字人,并支持跳舞、运动等多种动作驱动,适用于虚拟人、游戏角色、XR 场景等多类应用。 LHM 基于多模态 Transformer 架构与高斯球体建模技术,具备出色的外观重建、动作绑定与细节还原能力,尤其在人脸区域表现出极高的保真度。相比传统视频或多视角建模方案,LHM 无需复…... -
Meta 发布 Llama 4:支持图文理解、千万上下文,开源大模型再突破!
2025 年 4 月 6 日,Meta 正式发布了全新一代开源大语言模型 —— Llama 4,在多模态理解、上下文处理、推理能力和推理效率等多个维度实现重大飞跃。此次更新同时推出两大主力模型 Llama 4 Scout 和 Llama 4 Maverick,并预告了超大规模的教师模型 Llama 4 Behemoth。 Llama 4 有哪些亮点? 原生多模态能力:支持图文联合输入,可用于图像问…...