-
OpenAI o3:OpenAI最新推出的高性能AI推理模型
o3 是 OpenAI 最新推出的高性能 AI 推理模型,专注于数学推理、编程和科学问题解决,首次在多个领域超越人类专家水平。在数学竞赛和编程任务中表现卓越,支持复杂任务的透明推理和代码生成。此外,轻量版 o3Mini 提供高效、低成本的解决方案。o3 的发布标志着 AI 技术迈向更高智能的里程碑,适用于研究、开发和教育等多领域应用。 -
-
Stable Video Diffusion-Stability AI推出的首个开放式生成AI视频模型
Stable Video是Stability AI推出的首个开放式生成AI视频模型。这个模型旨在服务于媒体、娱乐、教育、营销等多个领域的广泛视频应用。它赋予个人将文本和图像输入转化为生动的场景的能力,并将概念提升为现场动作、电影般的创作。 -
-
CogAgent-9B:智谱AI推出的专用于Agent任务的开源基座模型
CogAgent-9B是智谱AI推出的最新开源基座模型,基于 GLM-4V-9B 训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入(无需HTML等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的GUI操作。得益于屏幕截图和GUI操作的普适性,CogAgent 可广泛应用于各类基于GUI交互的场景,如个人电脑、手机、车机设备等。 -
Imagen 3:谷歌推出的高质量文本到图像生成模型
Imagen 3 是 DeepMind 开发的最新文本到图像模型,它能够生成高质量、高分辨率的图像,具有更好的细节和丰富的光照效果。该模型支持多种视觉风格,从照片般逼真到油画质感,以及黏土动画场景。 -
Qwen2-Audio:阿里推出的开源音频语言大模型
Qwen2-Audio是由阿里通义团队推出的大型音频语言模型系列,它能够接受音频信号输入,进行音频分析或直接文本响应,支持语音聊天和音频分析两种交互模式,并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。 -
Janus-Pro:DeepSeek推出的开源AI模型,支持图像理解和图像生成
Janus-Pro是由DeepSeek推出的开源大一统模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。它通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。 -
-
-
Step-1X:阶跃星辰推出的文生图AI大模型
Step-1X是阶跃星辰推出的文生图大模型,具备强大的图像生成能力,它能够通过输入的文本描述生成高质量、高分辨率的图像,特别擅长处理和理解中文文本。该模型使用自研的DiT架构,具备深度语义理解和细节捕捉能力,能够将复杂的文本语义转化为图像特征,生成与描述高度匹配的视觉内容。此外,Step-1X 还支持风格迁移,使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。 -
-
星火深度推理模型X1
星火深度推理模型X1是科大讯飞推出的首个具备深度思考和推理能力的大型AI模型。它基于全国产算力训练,拥有较高的数学能力和推理能力,能够在较少算力的情况下提供业界领先的效果,并成功实现了在实际场景中的应用。 -
-
ACE - 阿里开源的一站式AI图像生成和编辑模型
ACE是阿里巴巴通义实验室开源的一款功能强大的图像生成和编辑模型,旨在通过一站式解决方案,高效处理多种视觉任务。它巧妙地结合了文生图、图像修改、风格转换、图像补充与扩展、多图合成和视频关键帧生成等功能,为用户提供全方位的图像处理体验。 -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型,专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力,能够处理视觉逻辑推理、数学问题、科学现象分析等任务。 -
DeepSeek-V3:DeepSeek推出的开源自研 MoE 模型,性能与速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE(混合专家)模型,旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家,DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展,展现出与世界顶尖闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B … -
豆包大模型-字节跳动推出的系列大语言模型
豆包大模型是字节跳动自研的一系列人工智能模型,包括通用模型Pro、Lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。这些模型支持长文本处理、个性化角色创作、语音合成与识别、声音克隆、图文创作、复杂工具调用等功能,适用于问答、创作、分类等多种场景。 -
-
Gemini 2.0:谷歌推出的面向代理时代的多模态大模型
Gemini 2.0 是 Google 最新推出的多模态人工智能大模型,支持处理文本、图像、音频和视频等数据类型。相比 1.0,2.0 在多模态方面实现突破,不仅支持图像、视频和音频输入,还支持原生图像和音频输出,并可调用谷歌搜索、代码及第三方函数,显著提升模型的灵活性和扩展性。 -
Llama中文社区
Llama中文社区是中国最大的开源技术社区,开放了一系列尺寸的大模型。基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持32K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。 -
-
Genie 2:Google DeepMind 推出的基础世界模型,单张图生成 1分钟可玩 3D 世界
Genie 2 是一个基础世界模型,只需使用单张图像就能生成可供人类或 AI 智能使用键鼠输入游玩的3D 环境。 -
-
-
GPT-4-OpenAI旗下AI大模型
GPT-4是OpenAI的大型语言模型的最新版本。它在各种各样的互联网文本上进行了训练,但也从其他各种来源学习。因此,它能够以对话的方式生成富有创造性、连贯性和与上下文相关的句子。 -
TransGPT:国内首个综合交通大模型
TransGPT是国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。 -
VideoWorld:豆包等推出的开源视频生成模型,从无标签视频中学习知识
VideoWorld是豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型,通过无标注的视频数据训练,探索AI如何从视觉输入中学习复杂任务。 -
Qwen2.5-Turbo:阿里推出的AI大语言模型,支持 100 万 tokens 上下文,处理时间缩短至 68 秒
Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型,支持高达 100万 tokens 的上下文处理,性能优于 GPT-4。通过稀疏注意力机制,推理速度提升至 68 秒,处理成本为每 100万 tokens ¥0.3,兼具短文本任务的高效性。 -
-
Mistral Large-Mistral AI 推出的旗舰AI大模型
Mistral Large 是 Mistral AI 推出的旗舰模型,具有顶级的推理能力,能够处理复杂的多语言推理任务,包括文本理解、转换和代码生成。 -
abab-video-1:MiniMax发布的AI高清视频生成模型
abab-video-1模型支持生成最高1280*720分辨率、25帧/秒的高清AI视频,视频内容具有电影感镜头移动,最多支持6秒视频的生成。 -
-
Codestral 25.01:Mistral AI最新推出的AI编程模型,编程速度提高2倍
Codestral 25.01是由Mistral AI推出的一款先进的AI编程模型,旨在显著提升软件开发的效率和质量。作为今年早些时候发布的Codestral的升级版本,Codestral 25.01在架构和分词器上进行了优化,生成和补全代码的速度提升了约2倍。它支持超过80种编程语言,特别适用于低延迟、高频率的使用场景,如代码填充(FIM)、代码修正和测试生成。 -
阿里达摩院遥感 AI 大模型
阿里达摩院发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。 -
Grok-1.5V:xAI发布的多模态AI大模型
Grok-1.5V不仅具备强大的文本处理能力,还可以处理各种视觉信息,如文档、图表、截图和照片。这使得Grok-1.5V能够在多学科推理、理解科学图表、阅读文本和实现真实世界的空间理解等领域与现有的前沿多模态模型竞争。 -
-
ReALM-苹果推出的AI系统,可「看懂」屏幕内容并语音回复
ReALM是苹果公司开发的一款新型人工智能AI系统,能够解析并理解屏幕上的内容,提供自然的语音助手交互。利用大语言模型技术,ReALM将视觉识别任务转换为语言处理问题,优化了性能并提升了文本表示的准确性。 -
QVQ-72B-Preview:阿里通义推出的开源多模态推理模型
QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型,基于 Qwen2-VL-72B 微调,拥有 73.4B 参数,专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容,并据此作出更细致的分析推理,还会质疑自身假设,仔细审视其推理过程的每一步,经过深思熟虑后给出最后结论。 -
Meta Movie Gen:Meta推出的AI视频音频生成模型
Meta Movie Gen是由Meta推出的AI视频音频生成模型,能够通过简单的文本输入生成高质量的视频和音效,还支持精准的视频编辑。用户可以输入文本描述生成高清视频、上传图像制作个性化视频,或根据指令修改视频内容。Movie Gen 还可以生成与视频同步的背景音乐和音效,适合内容创作者、电影制作人等使用。