-
PaliGemma 2:Google 推出的新一代AI视觉语言模型
PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型,它在前代基础上集成了视觉处理能力,能够识别、理解并与视觉输入互动,是一款支持简单微调的强大 AI 模型。- 62
- 0
-
FLUX.1 Tools:Black Forest Labs 推出的 AI 图像处理模型套件,实现精准的图像编辑和生成
Flux.1 Tools 是由 Black Forest Labs 推出的 AI 图像处理模型全家桶,旨在为FLUX.1基础文本转图像模型添加控制和可操纵性,从而实现对真实图像和生成图像的修改和重新创建- 420
- 0
-
Pixtral Large:Mistral AI推出的开源千亿参数多模态 AI 模型
Pixtral Large 是由 Mistral AI 推出的 1240 亿参数开源多模态模型。它是基于 Mistral Large 2 构建的第二代多模态模型,能够同时处理 文本 和 图像 数据,专为复杂推理、文档分析和视觉理解任务设计。它在保持顶尖文本理解能力的同时,显著增强了图像相关任务的表现,适用于研究、教育和商业场景。- 733
- 0
-
腾讯混元3D-1.0:腾讯开源的3D模型,支持文本或图像生成3D模型
腾讯混元3D-1.0 是由腾讯推出的首个同时支持文生和图生的3D开源模型,支持从文本或图像生成3D模型。该模型通过双阶段生成方法快速生成3D资产,仅需约10秒即可完成3D对象的生成。- 1.3k
- 0
-
Hunyuan-Large:腾讯最新开源的MoE大模型,效果业界领先
由腾讯开发的开源业界参数规模最大、效果最好的transformer结构的 MoE 模型,在公开benchmark、多轮对话、高质量文本生成、数学逻辑、代码创作等多个任务上具有优异效果- 619
- 0
-
Mochi 1:Genmo 推出的最新开源视频生成模型
Mochi 1 是 Genmo 推出的最新开源视频生成模型,被认为是当前最先进的开放视频生成系统之一。Mochi 1 专注于生成高保真动作视频,同时高度遵循文本提示。- 937
- 0
-
Stable Diffusion 3.5:Stability AI 开源的新一代AI图像生成模型
Stable Diffusion 3.5 是由 Stability AI 推出的最新一代图像生成模型,专为提供更高质量、快速生成、多样化输出的图像生成体验而设计。- 2.1k
- 0
-
Emu3:智源推出的原生多模态世界模型,可实现图像、文本、视频的统一理解和生成
Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成- 795
- 0
-
Qwen2.5:阿里巴巴最新开源的系列AI大模型
Qwen2.5是什么? Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen2.5的主要特点 …- 3.1k
- 0
-
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。- 3.4k
- 0
-
FLUX.1:Stable Diffusion原班人马推出的开源AI图像生成模型
FLUX.1是由Stable Diffusion原班人马推出的开源图像生成模型,在文字生成、复杂指令遵循和人手生成上具备优势。FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。- 5.7k
- 0
-
零一万物发布并开源Yi-1.5系列模型,包含34B/9B/6B 多尺寸
AIHub 2024 年 05 月 13 日最新消息,李开复旗下 AI 公司零一万物发布并开源Yi-1.5系列模型,包含34B/9B/6B 多尺寸 模型。 Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。- 2.7k
- 0
-
-
Llama 3-Meta最新推出的新一代开源大模型
Llama 3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,与Llama-2相比,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。- 17.9k
- 0
-
CodeGemma-Google推出的开源代码大模型
CodeGemma是功能强大的轻量级模型集合,可以执行各种编码任务,例如填充中间代码补全、代码生成、自然语言理解、数学推理和指令遵循。- 3.3k
- 0
-
Grok-1:马斯克xAI发布的开源AI大模型,可商用
Grok-1是Elon Musk旗下AI公司xAI发布的开源AI大模型,具有3140 亿个参数,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings。- 7.6k
- 0
-
TripoSR - 单张图片快速生成高质量3D模型
TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。- 13.8k
- 0
-
Gemma-谷歌发布的最新开放模型,小尺寸可商用
Gemma是谷歌最新发布的一款开放模型,属于轻量级开放模型系列。它采用了与创建Gemini模型相同的研究和技术,是一个小尺寸的大语言模型。- 12.1k
- 0
-