-
Qwen3:阿里巴巴最新开源的混合推理大模型
Qwen3 是阿里巴巴推出的新一代大语言模型,支持119种语言,具备强大的推理、编码和智能体能力。它引入了“思考模式”和“快速响应模式”双模式切换,能根据任务灵活调节推理深度。Qwen3发布了多种规模的开源模型,旗舰版Qwen3-235B-A22B在多个领域性能达到业界顶尖,广泛应用于自然语言理解、复杂推理、代码生成等场景。 -
-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
Kimi-Audio是kimi开源的全新通用音频基础模型,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 -
GPT-4.1:OpenAI 推出的新一代语言模型,支持百万上下文
GPT-4.1 是 OpenAI 推出的新一代语言模型,包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个版本。它在编码能力、指令遵循和长文本处理等方面有显著提升,支持高达 100 万个 token 的上下文窗口。 -
讯飞星火认知大模型
讯飞星火是科大讯飞发布的认知大模型,以中文为核心的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。 -
SkyReels-V2:昆仑万维开源的无限时长电影生成模型
SkyReels-V2 是由昆仑万维开源的一款视频生成大模型,首创“扩散强迫(Diffusion-forcing)”训练框架,具备生成高保真、连贯、长时长(30s 以上)的影视级视频的能力。模型融合了多模态大语言模型(MLLM)、强化学习、视频理解与扩散优化等多项技术,适用于故事生成、图像到视频(I2V)、运镜控制和多元素一致性生成等丰富场景。 -
豆包1.5·深度思考模型:火山引擎推出的AI推理模型
在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,在AIME 2024、Codeforces、GPQA等多项权威基准上达到或接近业界第一梯队水平。支持128k上下文窗口,16k输出。 -
InstantCharacter:腾讯混元开源的定制化图像生成插件,支持角色一致性生成
InstantCharacter 是腾讯混元开源的一个定制化图像生成插件,能够通过简单的文字描述和一张图片生成各种角色的图像。它实现了对开源文生图模型 Flux 的兼容,用户只需要提供一张图片和一句话的描述,就可以让角色以想要的姿势出现在任何场景中。 -
Gemini 2.5 Flash:Google 推出的首个完全混合推理模型
Gemini 2.5 Flash 是 Google 推出的首个完全混合推理模型,允许开发人员灵活控制模型的思考功能,可开启或关闭。它还支持设置思考预算,帮助开发者在质量、成本和延迟之间找到最佳平衡。即使关闭思考功能,模型仍能保持 2.0 Flash 的高速度,并进一步提升性能,兼具高效推理和成本效益。目前处于预览阶段,支持通过 API 在 Google AI Studio 和 Vertex AI … -
HiDream.ai:AI视频和图像生成平台
HiDream AI是一个提供多种图像和视频生成服务的AIGC创作平台和社区,由前京东副总裁、加拿大工程院外籍院士梅涛于2023年3月成立。HiDream AI主要包括文生图、图生图、文生视频、图生视频、图片智能重绘、智能拓图、智能排版、视频智能编辑、设计师展示交流社区、AI创意创作大赛、AIGC课程及攻略等栏目,帮助您零基础轻松掌握AIGC一站式能力,唤醒创造力、生命感和价值感,解放生产力,全面… -
OpenAI o3:OpenAI推出的最新推理模型,支持工具调用和图像理解
OpenAI o3 是 OpenAI 发布的最新推理模型,代表了其在智能推理领域的最高水平。它能够自主使用 ChatGPT 内的所有工具,包括网络搜索、文件分析、代码执行和图像生成。 -
OpenAI o4-mini:OpenAI最新推出的经济高效的推理模型
o4-mini 是OpenAI 发布的一款高效推理模型,专为快速、低成本的任务设计。它在数学、编程和视觉任务上表现出色,尤其适合高吞吐量场景。o4-mini 能自主使用 ChatGPT 的工具,如搜索、文件分析和代码执行,以快速生成答案。它还支持多模态输入,能处理图像和文本,对话自然且相关。其性价比高,是处理复杂问题的理想选择。 -
Seedream 3.0:字节推出的双语AI图像生成模型,支持原生 2K 分辨率
Seedream 3.0 是豆包大模型团队推出的下一代全场景文生图模型,支持原生 2K 分辨率图像生成,并具有显著提升的文本渲染、图像美学、结构优化能力。 -
Skywork-OR1:昆仑万维开源的数学代码推理系列模型
Skywork-OR1是由昆仑万维推出的开源高性能推理模型系列,该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用。 -
林龙大模型:中国林科院推出的国内首个林草行业大模型
林龙大模型是中国林科院推出的国内首个林草行业大模型,基于DeepSeek大模型构建。它专为林草行业设计,融合多模态数据与行业知识,具备高效处理时空数据、低资源适配、高扩展性等优势,可应用于树种识别、病虫害监测、生态系统评估等八大场景,助力林草行业智能化转型与高质量发展。 -
SYMPLEX:北大推出的功能基因深度挖掘大模型
SYMPLEX 是由北京大学钱珑团队发布的功能基因深度挖掘大模型平台,专为生物制造和合成生物元件设计服务。平台结合大语言模型能力与结构化生物知识,能够从海量文献中自动提取与标注功能基因,并提供基因功能推荐、结构分析与知识图谱生成等功能,推动从序列到应用的基因资源发现。 -
-
LHM - 阿里通义开源的单张照片生成可驱动3D数字人模型
LHM 是阿里通义开源的单张照片生成可驱动 3D 数字人模型,具备高质量建模与动作还原能力。用户仅需上传一张照片,即可生成具备骨骼结构的 3D 人物,并可绑定跳舞、打篮球等复杂动作,实现流畅自然的动态表现。该模型适用于虚拟人制作、游戏角色生成、XR 场景构建等应用,具备开源可用、可部署、可交互的特点。 -
-
Llama 4:Meta 推出的新一代原生多模态开源大模型
Llama 4 是 Meta 发布的最新一代开源大模型,具备原生多模态能力,可处理文本和图像的联合输入,支持图文问答、多图理解等复杂任务。模型采用高效的 MoE(混合专家)架构,推理速度更快、成本更低,且上下文窗口长达 1000 万 tokens,远超同类模型。 -
Gen-4:Runway推出的新一代AI视频生成模型
Runway Gen-4 是由 Runway 推出的第四代视频生成模型,具备高度一致性、多视角控制、风格保持和镜头构图能力。该模型支持通过文字描述或图像参考,生成高质量、连续性强的视频内容。 -
QVQ-Max:阿里通义推出的视觉推理模型,能分析图片和视频内容
QVQ-Max 是阿里巴巴通义团队推出的AI视觉推理模型,能够分析图片和视频内容,进行推理和解决问题。它具备细致的观察能力,能识别图像中的关键元素,并结合背景知识进行深度推理。 -
Qwen2.5-Omni:阿里推出的新一代端到端多模态模型
Qwen2.5-Omni是阿里巴巴通义团队推出的一款全模态大语言模型。它能够处理多种输入形式,包括文本、音频、图像和视频,并生成相应的输出。 -
Mureka O1 - 昆仑万维推出的AI音乐推理大模型
Mureka O1是昆仑万维发布的全球首款音乐推理大模型,基于Mureka V6升级,引入CoT技术,支持纯音乐及10种语言创作,涵盖多种曲风和情感。用户可通过简单模式输入风格或高级模式输入歌词等创作。它还提供歌曲参考、音色克隆功能,支持API服务与模型微调。 -
Gemini 2.5 Pro:谷歌推出的最新多模态AI模型,具备高级推理能力
Gemini 2.5 Pro是谷歌推出的一款具备高级推理能力的人工智能模型,支持文本、图像、音频和视频等多种输入形式,上下文窗口达100万token。用户可以通过Google AI Studio和Gemini Advanced免费使用,Vertex AI集成即将推出 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型,参数约 660B,上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升,特别是在数学、代码和百科知识评测中表现优异。 -
Qwen2.5-VL-32B-Instruct:阿里开源的最新多模态模型,主打视觉语言理解和推理
Qwen2.5-VL-32B-Instruct 是阿里开源的多模态大模型(32B参数),支持 视觉+语言+数学推理,在 图像理解(如地理特征识别、多轮视觉问答)和 复杂数学推理(几何、数列等)方面表现突出。通过强化学习优化,其输出更符合人类偏好,回答更详细、结构化。 -
减单 - 安徽医科大学等推出的体重管理大模型智能助手
“减单”是由安徽医科大学联合中国科学技术大学附属第一医院和健康科技企业共同发布的体重管理大模型智能助手。它基于国内外多个AI大模型技术,结合超过40万名肥胖相关慢性疾病患者的管理数据训练而成,旨在借助AI技术提高减重的个性化干预质量和诊疗效率。 -
腾讯混元T1:腾讯推出的最新深度思考推理模型
腾讯混元 T1 是腾讯推出的最新深度思考推理模型,具备强大的分析和推理能力,能够清晰、有依据地回答复杂问题。T1 还支持联网搜索,结合实时信息提供更准确的答案。 -
Step-Video-TI2V:阶跃星辰开源的AI图生视频模型
Step-Video-TI2V是阶跃星辰开源的AI图生视频模型,基于30B参数训练,支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性,适合动画和短视频制作,尤其在动漫效果上表现突出。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D图像轻松转3D视频
Stable Virtual Camera是由Stability AI推出的多视图扩散模型,能够将2D图像转化为具有真实深度和透视效果的3D视频。该模型支持用户自定义相机轨迹和多种动态路径,可从单个或多达32个输入图像生成3D视频,并支持多种宽高比和长达1000帧的长视频生成。 -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型,专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力,能够处理视觉逻辑推理、数学问题、科学现象分析等任务。 -
Gemini 2.0:谷歌推出的面向代理时代的多模态大模型
Gemini 2.0 是 Google 最新推出的多模态人工智能大模型,支持处理文本、图像、音频和视频等数据类型。相比 1.0,2.0 在多模态方面实现突破,不仅支持图像、视频和音频输入,还支持原生图像和音频输出,并可调用谷歌搜索、代码及第三方函数,显著提升模型的灵活性和扩展性。 -
文心大模型4.5:百度推出的新一代原生多模态基础大模型
文心大模型4.5是百度推出的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。 -
文心大模型X1:百度推出的新一代深度思考模型
文心大模型X1是百度发布的新一代深度思考模型,具备强大的理解、规划、反思和进化能力,支持多模态输入输出以及多种工具调用。它在中文知识问答、文学创作、复杂计算等方面表现出色,性能对标DeepSeek-R1,但API调用价格仅为一半。 -
-
Gemma 3:Google 推出的轻量级高性能开源模型,支持单个GPU运行
Gemma 3 是 Google 推出的轻量级、高性能开源模型,支持多种尺寸(1B、4B、12B 和 27B),专为单 GPU 或 TPU 设计。它支持 140 多种语言,具备高级文本和视觉推理能力,配备 128k-token 上下文窗口和函数调用功能,支持复杂任务处理。Gemma 3 提供量化版本,优化性能,降低计算需求,并配备安全特性。它无缝集成多种开发工具,支持灵活部署,助力开发者快速构建高… -
SeedFoley - 字节跳动推出的AI视频音效生成模型
SeedFoley 是字节跳动推出的端到端视频音效生成模型,通过融合时空视频特征和扩散生成模型,实现音效与视频的高度同步。它支持可变长度视频输入,可在音效准确性、同步性和匹配度上达到领先水平。SeedFoley 已上线即梦应用,用户可一键生成专业级音效,广泛应用于 AI 视频创作、Vlog、短片和游戏制作等场景,提升视频的沉浸感和专业感。 -
GO-1:智元推出的首个通用具身基座模型
GO-1是什么? GO-1是智元机器人发布的通用具身基座大模型,采用ViLLA架构,结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务,支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段,预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构:GO-1采用Vision-Language-Latent-Action (ViLLA)… -
OpenAI o3-mini:OpenAI最新发布的AI推理模型
o3-mini 是 OpenAI 推出的新一代推理模型,旨在为用户提供高效且经济的推理能力。它继承了前代 o1 模型的优点,同时通过优化提升了在 科学、数学、编程 等领域的推理能力,并保持了 低成本 和 低延迟。o3-mini 已经在 ChatGPT 和 API 中上线,适用于广泛的企业和开发者场景。