全部标签

AI训练模型

最新随机最多浏览

Llama 3-Meta最新推出的新一代开源大模型

Llama 3是一款由Meta推出的大型开源人工智能语言模型，Llama-3共有80亿、700亿两个参数版本，与Llama-2相比，Llama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。
BioMedGPT-清华开源的生物医药基础模型

BioMedGPT-1.6B是一个参数为16亿的生物医药领域轻量级科研版基础模型，具有跨模态与知识融合的特点，可以处理药物性质预测、自然语言类、跨模态等多种任务。
MatterGen：微软推出的无机材料设计AI模型，辅助生成新材料

MatterGen 是微软推出的基于生成性AI的材料设计模型，利用扩散模型生成具有特定化学、机械、电子或磁性属性的新材料。它能够高效生成稳定、独特的材料，超越传统筛选方法，快速探索未知材料空间。
DeepSeek-V2.5：深度求索推出的融合通用与代码能力的开源模型

DeepSeek-V2.5是由杭州深度求索推出的融合了通用对话能力和强大代码处理能力的开源AI模型。它结合了DeepSeek-Chat和DeepSeek-Coder模型，支持通用任务和代码生成，同时优化了用户体验。
Segment Anything：首个图像分割基础模型

SAM是一种来自 Meta AI 的新 AI 模型，只需单击一下即可“切出”任何图像中的任何对象
荀子古籍大语言模型

荀子古籍大语言模型是南京农业大学信息管理学院王东波教授团队在北京发布的进行古籍处理和研究的智能工具。
OpenAI o1：OpenAI最新推出的AI大语言模型，更擅长推理也更贵

OpenAI o1 是由OpenAI最新发布的人工智能大模型，旨在通过强化学习与思维链技术提升复杂推理能力。该模型的核心特性是能够花费更多时间进行推理，模仿人类的思考方式，尤其在科学、数学和编程领域表现突出。o1 在多项基准测试中超越了之前的 GPT 模型，展现了博士级别的推理能力，甚至在某些领域击败了人类专家。
ThinkSound - 阿里通义开源的AI音频生成模型

ThinkSound 是阿里通义实验室开源的首个音频生成模型，能够像专业音效师一样理解画面内容并进行结构化推理，从而生成高保真、与视觉高度同步的空间音频，适用于影视、短视频、游戏等多种创作场景。
云知声-山海大模型

山海大模型是最新一代认知智能大模型，拥有丰富的知识储备，涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感，是人类的良师益友，也是灵动强大的智能助理。
清博智能发布大模型“先问” 支持实时联网

清博智能发布实时联网大模型“先问”。据了解，该大模型基于2000亿开源数据集、百万级专业人工数据集，具有数据可溯源、实时同步、可视化分析、多参数版本特点，支持本地化部署。
通义千问-阿里云推出的AI大语言模型

通义千问是阿里云自研AI大模型，开始邀请用户测试体验
Wan2.1-VACE：阿里开源的AI视频生成和编辑模型

通义万相 Wan2.1-VACE是阿里巴巴开源的AI视频生成与编辑模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。
CM3leon：可生成文本和图像的多模态大模型

CM3leon是Meta AI开发的一种大型语言模型，可生成文本和图像。它是一种自回归模型，这意味着它可以一次生成一个文本或图像的令牌或像素。这使它比其他仅以特定方式生成文本或图像的生成模型更具通用性。
腾讯混元T1：腾讯推出的最新深度思考推理模型

腾讯混元 T1 是腾讯推出的最新深度思考推理模型，具备强大的分析和推理能力，能够清晰、有依据地回答复杂问题。T1 还支持联网搜索，结合实时信息提供更准确的答案。
OpenAI o3：OpenAI推出的最新推理模型，支持工具调用和图像理解

OpenAI o3 是 OpenAI 发布的最新推理模型，代表了其在智能推理领域的最高水平。它能够自主使用 ChatGPT 内的所有工具，包括网络搜索、文件分析、代码执行和图像生成。
Qwen2.5-Max：阿里通义千问推出的旗舰MoE模型

Qwen2.5-Max是阿里云推出的超大规模MoE模型，采用超过20万亿tokens的预训练数据，展现卓越性能。该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI，支持指令模型和基座模型。用户可通过Qwen Chat平台直接对话或调用API进行集成。
Skywork O1：昆仑万维推出的「天工大模型4.0」o1版

Skywork O1是昆仑万维即将推出的具有复杂思考推理能力的系列模型，定位为国内首款具备中文复杂推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作，Skywork O1不仅在模型输出上内生了思考、计划、反思等能力，同时，该开源模型在标准评测集上，对比基座模型推理能力大幅上升，真正让模型拥有了思考和反思带来的推理能力的本质上的提升。
昆仑大模型：中国石油等联合发布的能源行业大模型

昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数，并已通过国家生成式人工智能服务备案，是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展，通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。
Qwen2-Audio：阿里推出的开源音频语言大模型

Qwen2-Audio是由阿里通义团队推出的大型音频语言模型系列，它能够接受音频信号输入，进行音频分析或直接文本响应，支持语音聊天和音频分析两种交互模式，并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。
Qwen2.5-Turbo：阿里推出的AI大语言模型，支持 100 万 tokens 上下文，处理时间缩短至 68 秒

Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型，支持高达 100万 tokens 的上下文处理，性能优于 GPT-4。通过稀疏注意力机制，推理速度提升至 68 秒，处理成本为每 100万 tokens ¥0.3，兼具短文本任务的高效性。
达观数据-曹植大语言模型

“曹植”是一款大语言模型，它是基于自然语言处理(NLP)、光学字符识别（OCR）、知识图谱等技术的实践产物。作为垂直、专用、自主可控的国产版ChatGPT模型，它不仅实现专业领域的AIGC智能化应用，还可以内置在客户各类业务系统中提供专用服务。
Qwen2.5-Coder：阿里巴巴推出的开源代码生成模型

Qwen2.5-Coder是由阿里巴巴最新推出的开源代码生成模型，本次一共有0.5B、3B、14B和32B四个版本，Qwen2.5-Coder 支持40多种编程语言的模型，能够处理多种编程任务，尤其在代码生成、修复和推理方面具有显著优势。
Matrix-Game：昆仑万维开源的交互式世界基础模型

Matrix-Game是由昆仑万维开源的交互式世界基础模型，能够生成完整可交互的游戏世界，能够对人类输入的操作指令进行正确响应，保留了游戏世界的空间结构与物理特性，画面也更加精致，超越了以往所有类似开源世界模型。
PaliGemma 2：Google 推出的新一代AI视觉语言模型

PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型，它在前代基础上集成了视觉处理能力，能够识别、理解并与视觉输入互动，是一款支持简单微调的强大 AI 模型。
Step-1X：阶跃星辰推出的文生图AI大模型

Step-1X是阶跃星辰推出的文生图大模型，具备强大的图像生成能力，它能够通过输入的文本描述生成高质量、高分辨率的图像，特别擅长处理和理解中文文本。该模型使用自研的DiT架构，具备深度语义理解和细节捕捉能力，能够将复杂的文本语义转化为图像特征，生成与描述高度匹配的视觉内容。此外，Step-1X 还支持风格迁移，使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。
Gemini 2.5 Flash：Google 推出的首个完全混合推理模型

Gemini 2.5 Flash 是 Google 推出的首个完全混合推理模型，允许开发人员灵活控制模型的思考功能，可开启或关闭。它还支持设置思考预算，帮助开发者在质量、成本和延迟之间找到最佳平衡。即使关闭思考功能，模型仍能保持 2.0 Flash 的高速度，并进一步提升性能，兼具高效推理和成本效益。目前处于预览阶段，支持通过 API 在 Google AI Studio 和 Vertex AI …
SeedFoley - 字节跳动推出的AI视频音效生成模型

SeedFoley 是字节跳动推出的端到端视频音效生成模型，通过融合时空视频特征和扩散生成模型，实现音效与视频的高度同步。它支持可变长度视频输入，可在音效准确性、同步性和匹配度上达到领先水平。SeedFoley 已上线即梦应用，用户可一键生成专业级音效，广泛应用于 AI 视频创作、Vlog、短片和游戏制作等场景，提升视频的沉浸感和专业感。
HithinkGPT-同花顺推出的问财大模型

重磅发布。
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型

Open-Sora是一个开源Sora复现方案，旨在帮助用户构建类似于OpenAI Sora的视频生成模型。它提供了一个完整的开发流程，包括数据处理、模型训练和部署，支持动态分辨率和多种模型结构。
Gemini 2.0：谷歌推出的面向代理时代的多模态大模型

Gemini 2.0 是 Google 最新推出的多模态人工智能大模型，支持处理文本、图像、音频和视频等数据类型。相比 1.0，2.0 在多模态方面实现突破，不仅支持图像、视频和音频输入，还支持原生图像和音频输出，并可调用谷歌搜索、代码及第三方函数，显著提升模型的灵活性和扩展性。
GLM-Realtime：智谱最新推出的端到端AI模型，支持2分钟记忆和清唱功能

GLM-Realtime是由智谱推出的低延迟端到端多模态模型，具备视频理解、语音交互、内容记忆、清唱功能和 Function Call 功能。它适用于多种实时交互场景，通过 Function Call 功能可以拓展到更广泛的商业应用。开发者可以免费调用该模型，体验其强大的实时交互能力。
SAM 2-Meta推出的图像和视频对象分割模型

SAM 2（Segment Anything Model 2）是由Meta推出的新一代AI分割模型，能够在图像和视频中实现高度精确、实时的对象分割。它在不需要定制适配的情况下，能够对任何未曾见过的对象进行分割，适用于各种视觉领域。这一模型在原有的Segment Anything Model (SAM)基础上进行了扩展和改进，支持更广泛的应用场景。
360智脑

360智脑是一个由 360 公司开发的 AI 平台，旨在探索全新的人机协作模式，激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务，包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。
猎户星空大模型

猎户星空大模型是一个专为企业应用设计的AI模型，具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中，Orion-14B系列模型表现优异，多项指标显著超越同等参数基本的其他模型。
Octopus V2-斯坦福推出的可在设备上运行的大模型

Octopus v2是一个拥有20亿参数的模型，能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4，且将上下文长度减少了95%。与基于RAG的Llama7B模型相比，Octopus v2的速度快了36倍。
GameGen-O：腾讯推出的视频游戏生成模型，支持生成角色、环境和动作等

GameGen-O是腾讯推出的一款专门用于生成开放世界视频游戏的AI模型，它能够模拟游戏引擎功能，生成游戏角色、动态环境、复杂动作和事件，并支持互动控制。用户可以通过文本、操作信号和视频提示来实时控制游戏内容。GameGen-O 的推出标志着游戏开发进入了AI辅助的新阶段，简化了许多复杂的开发环节，降低了开发成本，甚至让普通用户也能轻松生成高质量的游戏内容。
CogView4 - 智谱推出的开源文生图模型，支持汉字生成

CogView4是北京智谱华章推出的开源文生图模型，支持中英双语输入，擅长生成含汉字图像。它在DPG-Bench测试中排名第一，性能卓越。具备任意分辨率生成和长提示词输入能力，技术领先，遵循Apache 2.0协议，适用于广告、短视频等创意领域。
Meta-ImageBind开源多模态AI大模型

ImageBind能够将多种数据流，包括文本、音频、视觉数据、温度和运动读数等整合在一起。
k0-math：月之暗面推出的新一代数学推理模型

k0-math是月之暗面公司推出的首款推理能力强化模型，采用了全新的强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务。
九章大模型MathGPT：好未来发布的国内首个数学大模型

MathGPT 是好未来自主研发的，面向全球数学爱好者和科研机构，以解题和讲题算法为核心的大模型。