-
TripoSR - 单张图片快速生成高质量3D模型
TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。 -
-
Step-Video-TI2V:阶跃星辰开源的AI图生视频模型
Step-Video-TI2V是阶跃星辰开源的AI图生视频模型,基于30B参数训练,支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性,适合动画和短视频制作,尤其在动漫效果上表现突出。 -
Janus-Pro:DeepSeek推出的开源AI模型,支持图像理解和图像生成
Janus-Pro是由DeepSeek推出的开源大一统模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。它通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。 -
Step-1X:阶跃星辰推出的文生图AI大模型
Step-1X是阶跃星辰推出的文生图大模型,具备强大的图像生成能力,它能够通过输入的文本描述生成高质量、高分辨率的图像,特别擅长处理和理解中文文本。该模型使用自研的DiT架构,具备深度语义理解和细节捕捉能力,能够将复杂的文本语义转化为图像特征,生成与描述高度匹配的视觉内容。此外,Step-1X 还支持风格迁移,使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。 -
Gemini 1.5-谷歌发布的新一代AI大模型
Gemini 1.5是谷歌发布的全新AI大模型,除了性能显著增强,还在长上下文理解方面取得突破,它可以处理多达100万token,实现了迄今为止任何大型基础模型中最长的上下文窗口。甚至能仅靠提示词学会一门训练数据中没有的新语言。 -
-
八观气象大模型 - 阿里达摩院推出的高精度气象预测模型,重点指标超过传统天气预报
八观气象大模型是阿里巴巴达摩院推出的高精度气象预测模型,专注于通过整合全球和区域多源数据来提供精准的天气预报。该模型将AI技术应用于气象预测领域,为新能源、电力调控等行业提供更具时效性和高分辨率的天气数据支持。 -
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数,并已通过国家生成式人工智能服务备案,是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展,通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。 -
Monkey:华中科技大学开源的多模态大模型
Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。 -
-
MathGLM-智谱AI发布的数学大模型
近日,智谱AI发布MathGLM数学模型,旨在增强大模型在数学推理方面的性能。它能够精确计算算术运算,包括基础算术运算和复杂混合运算,并提升模型的中文数学解决能力。 -
Xiaomi MiMo:小米推出的首个开源推理模型
MiMo 是小米推出的首个开源大语言模型,参数规模为 7B,聚焦于数学推理与代码生成任务。该模型通过高推理密度的预训练数据(总计 25 万亿 tokens)与强化学习后训练(包括奖励机制优化、样本再采样策略等),实现了在 AIME、LiveCodeBench 等多个权威基准上的领先表现。 -
dots.llm1:小红书开源的 MoE 架构大语言模型
dots.llm1是小红书开源的 MoE 架构大语言模型,拥有 1420 亿参数,推理仅激活 140 亿,兼顾性能与效率。模型基于 11.2 万亿非合成高质量数据训练,支持中英文,具备 32K 长上下文处理能力,并开放中间训练 checkpoint,适合问答、内容生成、语义理解等多种应用场景。 -
POINTS 1.5:微信发布的最新多模态AI大模型
POINTS 1.5是什么? POINTS1.5是微信最新发布的多模态大模型,性能超越了同级别开源模型,位居OpenCompass Leaderboard榜首。 它采用LLaVA架构,使用NaViT风格视觉编码器和Qwen2.5-7B-Instruct大语言模型,支持中英文双语理解和生成。POINTS1.5在多个基准测试和真实场景中表现出色,具备强大的视觉理解、推理和信息提取能力。 该模型通过单独… -
GPT-4o mini:OpenAI最新推出的AI模型,更快更便宜更智能
GPT-4o mini是由OpenAI推出的一款高性价比小型模型,具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异,在 MMLU 上得分 82%,目前优于 GPT-4,比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉,未来将支持更多形式。 -
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。 -
360智脑
360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。 -
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。 -
-
孟子GPT
孟子生成式大模型(孟子 GPT)是一个面向生成场景的可控大语言模型,能够通过多轮的方式帮助用户完成特定场景中的多种工作任务。它能通过多轮对话的方式,帮助用户完成在特定场景中的多种工作任务。 -
DeepSeek-R1:深度求索发布的AI推理模型,性能对标 OpenAI o1 正式版
DeepSeek-R1 是深度求索推出的高性能推理模型,性能与 OpenAI o1 正式版相当。通过强化学习技术和极少标注数据,DeepSeek-R1 在数学、代码和自然语言推理等任务中表现卓越。该模型遵循 MIT License 开源,支持模型蒸馏,允许用户训练其他模型。此外,DeepSeek-R1 提供 API 服务,按 token 计费,广泛应用于科研、技术开发和企业智能化升级等领域。 -
QwQ-Max-Preview:阿里通义千问推出的深度思考模型
QwQ-Max-Preview是阿里Qwen团队基于Qwen2.5-Max开发的推理模型预览版,擅长深度推理、数学、编程和AI智能体任务,未来将开源并推出正式版。 -
Gemini 2.5 Flash:Google 推出的首个完全混合推理模型
Gemini 2.5 Flash 是 Google 推出的首个完全混合推理模型,允许开发人员灵活控制模型的思考功能,可开启或关闭。它还支持设置思考预算,帮助开发者在质量、成本和延迟之间找到最佳平衡。即使关闭思考功能,模型仍能保持 2.0 Flash 的高速度,并进一步提升性能,兼具高效推理和成本效益。目前处于预览阶段,支持通过 API 在 Google AI Studio 和 Vertex AI … -
PowerLawGLM-法律垂直AI大模型
"PowerLawGLM"是由幂律智能联合智谱AI发布的千亿参数级法律垂直大模型。这个模型专注于法律细分领域,针对中文法律场景的应用效果具有独特优势,具备丰富的法律知识和法律语言理解能力。 -
MatterGen:微软推出的无机材料设计AI模型,辅助生成新材料
MatterGen 是微软推出的基于生成性AI的材料设计模型,利用扩散模型生成具有特定化学、机械、电子或磁性属性的新材料。它能够高效生成稳定、独特的材料,超越传统筛选方法,快速探索未知材料空间。 -
-
Emu2:智源研究院开源发布的新一代生成式多模态基础模型
2023年12月21日,智源研究院发布了新一代多模态基础模型 Emu2。Emu2通过大规模自回归生成式多模态预训练,显著推动了多模态上下文学习能力的突破。 Emu2在少样本多模态理解任务上表现出色,超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多个少样本理解、视觉问答、主体驱动图像生成… -
Genie 2:Google DeepMind 推出的基础世界模型,单张图生成 1分钟可玩 3D 世界
Genie 2 是一个基础世界模型,只需使用单张图像就能生成可供人类或 AI 智能使用键鼠输入游玩的3D 环境。 -
Skywork O1:昆仑万维推出的「天工大模型4.0」o1版
Skywork O1是昆仑万维即将推出的具有复杂思考推理能力的系列模型,定位为国内首款具备中文复杂推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork O1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比基座模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的本质上的提升。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D图像轻松转3D视频
Stable Virtual Camera是由Stability AI推出的多视图扩散模型,能够将2D图像转化为具有真实深度和透视效果的3D视频。该模型支持用户自定义相机轨迹和多种动态路径,可从单个或多达32个输入图像生成3D视频,并支持多种宽高比和长达1000帧的长视频生成。 -
Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界
Genie是由谷歌发布的根据互联网视频训练的基础世界模型,该模型参数规模为11B,可以从合成图像、照片甚至草图生成无数种动作可控的交互式环境。 -
阿里达摩院遥感 AI 大模型
阿里达摩院发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。 -
协和·太初 - 北京协和医院和中科院联合推出的罕见病领域 AI 大模型
“协和・太初”是由北京协和医院和中国科学院自动化研究所共同研发的国内首个罕见病领域 AI 大模型。该模型基于我国罕见病知识库的多年积累和中国人群基因检测数据,是国际首个符合中国人群特点的罕见病大模型。 -
-
云从从容大模型
云从从容大模型是由中国领先的人工智能公司云从科技推出的一种先进的人机协同操作系统(CWOS)。这个系统采用了多模态的人工智能技术,包括但不限于视觉识别、自然语言处理、语音识别等。它的目标是实现数字世界与物理世界之间的无缝连接,为各种应用和服务提供智能化的解决方案。 -
CogVideoX-智谱推出的开源AI视频生成模型
CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。 -
腾讯混元3D-1.0:腾讯开源的3D模型,支持文本或图像生成3D模型
腾讯混元3D-1.0 是由腾讯推出的首个同时支持文生和图生的3D开源模型,支持从文本或图像生成3D模型。该模型通过双阶段生成方法快速生成3D资产,仅需约10秒即可完成3D对象的生成。 -
-