-
HiDream.ai-多模态视觉大模型
HiDream.ai(智象未来)是一家主打人工智能业务的公司,由前京东副总裁、加拿大工程院外籍院士梅涛于2023年3月成立。公司的目标是围绕视觉,打造生成式多模态基础模型及应用,并让基于此生成的内容,真正进入营销、设计场景的业务流中。 -
Champ-基于3D的人物图像到动画视频生成框架
Champ是由阿里巴巴、南京大学和复旦大学的研究人员共同提出的一种旨在提供可控且与原始人物保持一致性的人物图像动画视频生成框架。Champ通过结合3D模型和潜在扩散框架,实现了对复杂人体几何和运动特征的精确捕捉。 -
Stable Code Instruct 3B:Stability AI推出的代码语言模型
Stable Code Instruct 3B是Stability AI推出的先进代码语言模型,基于 Stable Code 3B 的指令调优 Code LM,旨在通过解读自然语言指令来生成代码、解决问题及执行多种编程语言的查询,从而简化软件开发流程,提高编程效率和直观性。 -
Mora-微软等推出的多智能体视频生成框架
Mora是一个多智能体视频生成框架,旨在模仿OpenAI的Sora模型的通用视频生成能力。Mora通过分解视频生成任务到多个专业智能体,能够执行文本到视频的转换、视频编辑和扩展等多种视频生成任务。 -
Step-1V:阶跃星辰推出的千亿参数多模态大模型
Step-1V是阶跃星辰研发的一款千亿参数的多模态大模型。这个模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。 -
-
-
Llama中文社区
Llama中文社区是中国最大的开源技术社区,开放了一系列尺寸的大模型。基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持32K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。 -
Stable Video 3D-单张图片生成高质量3D内容和视频
Stable Video 3D是一个由Stability AI 推出的3D技术模型,能够从单张图片生成高质量的多视角3D内容和视频。Stable Video 3D包含两个变体,SV3D_u和SV3D_p,分别用于生成轨道视频和沿指定相机路径的3D视频。 -
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型
Open-Sora是一个开源Sora复现方案,旨在帮助用户构建类似于OpenAI Sora的视频生成模型。它提供了一个完整的开发流程,包括数据处理、模型训练和部署,支持动态分辨率和多种模型结构。 -
Grok-1:马斯克xAI发布的开源AI大模型,可商用
Grok-1是Elon Musk旗下AI公司xAI发布的开源AI大模型,具有3140 亿个参数,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings。 -
-
-
MovieLLM-通过AI生成电影来增强长视频理解的框架
MovieLLM 是一个由复旦大学和腾讯PCG共同开发的,旨在通过AI生成的电影来增强长视频理解的框架。它可以在各种场景上生成具有风格一致的视频画面,解决在生成长视频时的高质量数据的问题。 -
Claude 3-Anthropic公司最新推出的AI大模型
Claude 3是Anthropic公司推出的一系列先进的人工智能模型,它们在多种认知任务上设定了新的行业标准。这个模型家族包括三个不同级别的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能水平、速度和成本效益,以适应不同的应用需求。 -
TripoSR - 单张图片快速生成高质量3D模型
TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。 -
-
EMO-阿里巴巴发布的AI肖像视频生成框架
EMO是一个由阿里巴巴发布的音频驱动的肖像视频生成框架。它能够通过单一参考图像和音频输入,生成具有丰富表情和多样头部姿势的虚拟角色视频。EMO利用先进的注意力机制和去噪网络,支持多语言和多种肖像风格的动态表现,为内容创作和虚拟角色动画制作提供了新工具。 -
Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界
Genie是由谷歌发布的根据互联网视频训练的基础世界模型,该模型参数规模为11B,可以从合成图像、照片甚至草图生成无数种动作可控的交互式环境。 -
-
Mistral 7B - Mistral AI 发布的开源大语言模型
Mistral 7B 是法国AI初创公司 Mistral AI 发布的一款先进的 73亿参数语言模型,性能超越了 Llama 2 13B 和 Llama 1 34B。 -
Mistral Large-Mistral AI 推出的旗舰AI大模型
Mistral Large 是 Mistral AI 推出的旗舰模型,具有顶级的推理能力,能够处理复杂的多语言推理任务,包括文本理解、转换和代码生成。 -
Gemma-谷歌发布的最新开源模型,小尺寸可商用
Gemma是谷歌最新发布的一款开源模型,属于轻量级开放模型系列。它采用了与创建Gemini模型相同的研究和技术,是一个小尺寸的大语言模型。Google DeepMind和Google其他团队合作开发了Gemma,并用拉丁语中意为“宝石”的gemma为其命名。 -