-
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
Step1X-3D 是由阶跃星辰正式发布并开源的一款3D大模型。该模型是继图像、视频、语音、音乐等模态后,阶跃星辰在多模态AI方向的最新成果,专注于生成高保真、可控的3D内容。- 246
- 0
-
Seed1.5-VL:字节跳动推出的视觉-语言多模态基础模型
Seed1.5-VL 是字节跳动推出的视觉-语言多模态基础模型,结合图像编码器与200亿激活参数的大语言模型,具备出色的图像、视频理解与推理能力。在60项基准测试中获得38项SOTA,广泛应用于视频问答、图表理解、GUI智能体等任务,表现稳定、推理强大。- 197
- 0
-
Matrix-Game:昆仑万维开源的交互式世界基础模型
Matrix-Game是由昆仑万维开源的交互式世界基础模型,能够生成完整可交互的游戏世界,能够对人类输入的操作指令进行正确响应,保留了游戏世界的空间结构与物理特性,画面也更加精致,超越了以往所有类似开源世界模型。- 400
- 0
-
Seed-Coder:字节跳动最新推出的开源代码模型
Seed-Coder 是字节跳动开源的 8B(80亿参数)级代码大模型,它包括 Base、Instruct 和 Reasoning 三个版本,具备强大的代码生成、理解和推理能力。其最大亮点是采用“模型自助式”数据管道,利用大模型自动筛选和构建高质量训练数据,减少人工规则依赖。- 506
- 0
-
HunyuanCustom:腾讯混元开源的多模态定制化视频生成工具
HunyuanCustom是腾讯混元推出的一款多模态定制化视频生成工具,它基于混元视频生成大模型(HunyuanVideo)打造,融合了文本、图像、音频、视频等多模态输入,能够生成高质量的定制化视频。该工具在主体一致性效果上超越了现有的开源方案,具备高度控制力和生成质量。- 679
- 0
-
DeepSeek-Prover-V2:DeepSeek最新开源的数学定理证明模型,参数量高达6710亿
DeepSeek-Prover-V2 是由 DeepSeek 最新开源的超大规模数学定理证明模型,参数量高达 6710 亿(671B),相比前代 Prover-V1.5(约 7B)提升近百倍,成为目前开源中最大规模的数学推理模型之一。该模型专为形式化数学证明设计,能够生成兼容 Lean 4 等主流证明助手的高质量证明步骤,支持复杂逻辑验证、定理发现与教学应用。- 2.8k
- 0
-
Xiaomi MiMo:小米推出的首个开源推理模型
MiMo 是小米推出的首个开源大语言模型,参数规模为 7B,聚焦于数学推理与代码生成任务。该模型通过高推理密度的预训练数据(总计 25 万亿 tokens)与强化学习后训练(包括奖励机制优化、样本再采样策略等),实现了在 AIME、LiveCodeBench 等多个权威基准上的领先表现。- 2.1k
- 0
-
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
Step1X-Edit 是一款开源的图像编辑模型,具备语义精准解析、身份一致性保持和高精度区域级控制等核心能力,支持多种高频图像编辑任务。- 1.1k
- 0
-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
Kimi-Audio是kimi开源的全新通用音频基础模型,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。- 1.1k
- 0
-
Skywork-OR1:昆仑万维开源的数学代码推理系列模型
Skywork-OR1是由昆仑万维推出的开源高性能推理模型系列,该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用。- 522
- 0
-
-
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型,专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力,能够处理视觉逻辑推理、数学问题、科学现象分析等任务。- 1k
- 0
-
Gemma 3:Google 推出的轻量级高性能开源模型,支持单个GPU运行
Gemma 3 是 Google 推出的轻量级、高性能开源模型,支持多种尺寸(1B、4B、12B 和 27B),专为单 GPU 或 TPU 设计。它支持 140 多种语言,具备高级文本和视觉推理能力,配备 128k-token 上下文窗口和函数调用功能,支持复杂任务处理。Gemma 3 提供量化版本,优化性能,降低计算需求,并配备安全特性。它无缝集成多种开发工具,支持灵活部署,助力开发者快速构建高…- 4.9k
- 0
-
QwQ-32B:阿里云开源的最新AI推理模型,更小尺寸,消费级显卡即可部署
QwQ-32B 是阿里云开源的320亿参数推理模型,具备强大的数学、代码和通用推理能力,性能比肩全球顶尖开源模型。它支持消费级显卡部署,降低硬件门槛,同时集成智能体能力,可灵活调整推理过程。采用Apache 2.0协议开源,用户可免费下载、商用和定制化开发,推动AI技术的广泛应用。- 7.9k
- 0
-
SpeciesNet - 谷歌开源的AI模型,助力野生动物识别和保护
SpeciesNet是谷歌开源的一款AI模型,专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片,能够将图像分类为超过2000个标签,涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练,具备高准确性和广泛适用性,采用Apache 2.0开源许可,助力生物多样性研究和保护。- 1k
- 0
-
SkyReels-V1:昆仑万维开源的AI短剧创作视频生成模型
SkyReels-V1 是昆仑万维开源的中国首个面向AI短剧创作的视频生成模型,专注于影视级人物表演、表情生成和动作模拟。它能够精细控制人物的口型、表情和肢体动作,提供33种人物微表情和400多种自然动作组合,模拟真实的情感表达。- 4.6k
- 0
-
Qwen2.5-VL:阿里通义千问推出的开源AI视觉语言模型
Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型,结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件,并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解,Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。- 11.8k
- 0
-
Qwen2.5-1M:阿里推出的开源AI模型,支持100万Token上下文
Qwen2.5-1M是阿里巴巴Qwen团队发布的支持100万Token上下文的开源语言模型系列,包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它们结合了基于vLLM的推理框架和稀疏注意力机制,显著提升了处理长文本时的速度和效率。该模型在长上下文任务中表现优异,特别是在密钥检索等复杂任务中,超越了之前的Qwen2.5-Turbo和GPT-4o-mi…- 3.7k
- 0
-
混元3D 2.0:腾讯混元发布的3D开源模型2.0版本
混元3D 2.0是腾讯混元推出的3D开源大模型2.0版本,旨在通过先进的AI技术,快速生成高质量的3D模型。对比1.0版本,2.0版本也依然同时支持文、图生3D的能力,并在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富,支持更精细、更逼真的3D内容创作。- 17.2k
- 0
-
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。- 19.7k
- 0
-
Sky-T1: NovaSky推出的高性价比推理模型,训练成本不到450美元
Sky-T1是由UC Berkeley的NovaSky团队开发的推理模型,其性能与O1-preview模型相当,特别是在推理和编码基准测试中表现出色。Sky-T1-32B-Preview的训练成本不到450美元,展示了以低成本和高效的方式复制高级推理能力的可能性。所有代码和模型权重都是开源的,旨在促进学术和开源社区的参与和进步。- 2.1k
- 0
-
CogAgent-9B:智谱AI推出的专用于Agent任务的开源基座模型
CogAgent-9B是智谱AI推出的最新开源基座模型,基于 GLM-4V-9B 训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入(无需HTML等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的GUI操作。得益于屏幕截图和GUI操作的普适性,CogAgent 可广泛应用于各类基于GUI交互的场景,如个人电脑、手机、车机设备等。- 2.5k
- 0
-
阿里通义发布最强开源多模态推理模型QVQ
2024年12月25日,阿里云通义千问正式发布全球首个开源多模态推理模型 QVQ-72B-Preview。该模型以超强的视觉理解与推理能力引领行业,特别在解决数学、物理和科学等复杂问题上表现尤为出色。目前,开发者可通过 魔搭社区 和 HuggingFace 平台 直接体验。- 1.3k
- 0
-
QVQ-72B-Preview:阿里通义推出的开源多模态推理模型
QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型,基于 Qwen2-VL-72B 微调,拥有 73.4B 参数,专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容,并据此作出更细致的分析推理,还会质疑自身假设,仔细审视其推理过程的每一步,经过深思熟虑后给出最后结论。- 3.6k
- 0