-
Meta Movie Gen:Meta推出的AI视频音频生成模型
Meta Movie Gen是由Meta推出的AI视频音频生成模型,能够通过简单的文本输入生成高质量的视频和音效,还支持精准的视频编辑。用户可以输入文本描述生成高清视频、上传图像制作个性化视频,或根据指令修改视频内容。Movie Gen 还可以生成与视频同步的背景音乐和音效,适合内容创作者、电影制作人等使用。 -
Llama 3.2:Meta最新推出的开源模型,包括视觉大语言模型和设备端纯文本模型
Llama 3.1是Meta最新推出的开源大语言模型,包括90B和11B两种参数规格的视觉大语言模型,还有能在设备端本地运行的1B和3B轻量级纯文本模型,包括预训练和指令调整版。1B和3B模型支持128K tokens上下文,适配高通和联发科硬件,并针对Arm处理器做了优化。 -
-
Seaweed-字节跳动推出的AI视频生成模型
Seaweed是字节跳动推出的豆包视频生成模型,支持两种视频生成方式:文生视频和图生视频。该技术基于Transformer结构,利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。 -
华知大模型-同方知网携手华为推出的中华知识大模型
华知大模型是同方知网携手华为共同打造内容权威可信、全栈自主可控的专注于知识服务与科研行业的中华知识大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。 -
-
Qwen2.5:阿里巴巴最新开源的系列AI大模型
Qwen2.5是什么? Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen2.5的主要特点 … -
GameGen-O:腾讯推出的视频游戏生成模型,支持生成角色、环境和动作等
GameGen-O是腾讯推出的一款专门用于生成开放世界视频游戏的AI模型,它能够模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作和事件,并支持互动控制。用户可以通过文本、操作信号和视频提示来实时控制游戏内容。GameGen-O 的推出标志着游戏开发进入了AI辅助的新阶段,简化了许多复杂的开发环节,降低了开发成本,甚至让普通用户也能轻松生成高质量的游戏内容。 -
OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵
OpenAI o1 是由OpenAI最新发布的人工智能大模型,旨在通过强化学习与思维链技术提升复杂推理能力。该模型的核心特性是能够花费更多时间进行推理,模仿人类的思考方式,尤其在科学、数学和编程领域表现突出。o1 在多项基准测试中超越了之前的 GPT 模型,展现了博士级别的推理能力,甚至在某些领域击败了人类专家。 -
Pixtral 12B:Mistral 推出的首款多模态大语言模型,支持下载和微调
Pixtral 12B是法国 AI 初创公司 Mistral 发布的首款多模态大语言模型,拥有 120 亿参数,模型大小约为 24GB。它的多模态功能使其能够同时处理文本和图像,适合执行如图像描述生成、图像分析、跨模态搜索等任务。Pixtral 12B 基于 Mistral 之前的 Nemo 12B 模型构建,并且具备开放性,允许用户下载并微调以适应特定任务需求。 -
丰语大模型:顺丰推出的物流行业AI大模型,摘要准确率超95%
丰语大模型是什么? 丰语大模型是顺丰科技推出的专门针对物流行业的垂直领域大语言模型,旨在提升物流和供应链管理中的智能化处理能力。它通过对物流相关数据进行优化训练,具备高效处理物流场景中常见任务的能力,如客服支持、快递问题定位、清关条款判定等。该模型能够提高工作效率,减少人工操作时间,并在处理复杂国际物流要求时提供准确的建议和判断。 丰语大模型的功能特性 高摘要准确率:丰语模型的摘要生成准确率超过9… -
DeepSeek-V2.5:深度求索推出的融合通用与代码能力的开源模型
DeepSeek-V2.5是由杭州深度求索推出的融合了通用对话能力和强大代码处理能力的开源AI模型。它结合了DeepSeek-Chat和DeepSeek-Coder模型,支持通用任务和代码生成,同时优化了用户体验。 -
Step-1X:阶跃星辰推出的文生图AI大模型
Step-1X是阶跃星辰推出的文生图大模型,具备强大的图像生成能力,它能够通过输入的文本描述生成高质量、高分辨率的图像,特别擅长处理和理解中文文本。该模型使用自研的DiT架构,具备深度语义理解和细节捕捉能力,能够将复杂的文本语义转化为图像特征,生成与描述高度匹配的视觉内容。此外,Step-1X 还支持风格迁移,使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。 -
abab-music-01:MiniMax推出的端到端AI音乐生成大模型
abab-music-01是由上海稀宇科技MiniMax推出的AI音乐生成大模型,支持多功能端到端音乐生成,可用于合成多种音乐形式,包括纯音乐、清唱作品,且满足伴奏、人声同时生成,大大简化音乐录制与创作过程。 -
abab-video-1:MiniMax发布的AI高清视频生成模型
abab-video-1模型支持生成最高1280*720分辨率、25帧/秒的高清AI视频,视频内容具有电影感镜头移动,最多支持6秒视频的生成。 -
阅文妙笔大模型:国内首个网文大模型
在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。 -
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。 -
-
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数,并已通过国家生成式人工智能服务备案,是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展,通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。 -
GLM-4-Flash:智谱AI推出的首个免费API服务,支持128K上下文
GLM-4-Flash是智谱AI推出的首个全面免费的API服务,旨在让AI技术惠及更广泛的用户群体。作为一款性能卓越的大语言模型,GLM-4-Flash在语义理解、数学计算、推理、代码生成和知识应用等多个领域表现出色,支持高达1500并发,能够满足大规模应用的需求。 -
心辰Lingo:西湖心辰推出的端到端语音大模型
心辰Lingo大模型是由西湖心辰开发的一款端到端语音大模型,集成了语音识别、自然语言处理、意图识别和语音合成等功能,能够深度理解用户的语音内容和情感,为用户提供自然、生动的互动体验。Lingo不仅可以快速响应复杂指令,还能根据语境和情感自适应调整语音表达方式,重新定义了智能语音交互的体验。 -
Phi-3:微软推出的开源小型语言模型,支持移动设备
Phi-3 是微软 AI 研究院开发的一系列小型语言模型,它们是开源的并且可以商用。这些模型的特点是体积小、所需资源少,使得它们能够在资源受限的环境中运行,例如在移动设备或者边缘计算设备上。 -
Imagen 3-谷歌推出的文生图AI模型,可生成高质量图像
Imagen 3 是 DeepMind 开发的最新文本到图像模型,它能够生成高质量、高分辨率的图像,具有更好的细节和丰富的光照效果。该模型支持多种视觉风格,从照片般逼真到油画质感,以及黏土动画场景。 -
Stable Diffusion-全球最强开源AI绘画模型
Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用,只需要输入一句提示词(prompt),就能够在几秒钟内创造出令人惊叹的绘画作品。 -
Grok-2:xAI推出的新一代AI大模型
Grok-2 是由埃隆·马斯克旗下公司 xAI 推出的新一代AI模型,具备卓越的推理能力,并在聊天、编码和图像生成等多个领域表现优异。此次发布的版本包含 Grok 家族的两个成员:Grok-2 和 Grok-2 mini。目前,这两个模型已在𝕏平台上面向Premium和Premium+用户进行测试。预计本月晚些时候,这两个模型还将通过企业API向开发者开放使用。 -
Qwen2-Audio:阿里推出的开源音频语言大模型
Qwen2-Audio是由阿里通义团队推出的大型音频语言模型系列,它能够接受音频信号输入,进行音频分析或直接文本响应,支持语音聊天和音频分析两种交互模式,并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。 -
SAM 2-Meta推出的图像和视频对象分割模型
SAM 2(Segment Anything Model 2)是由Meta推出的新一代AI分割模型,能够在图像和视频中实现高度精确、实时的对象分割。它在不需要定制适配的情况下,能够对任何未曾见过的对象进行分割,适用于各种视觉领域。这一模型在原有的Segment Anything Model (SAM)基础上进行了扩展和改进,支持更广泛的应用场景。 -
Qwen2-Math:阿里巴巴最新开源的数学推理大模型
Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。 -
FLUX.1:Stable Diffusion原班人马推出的开源AI图像生成模型
FLUX.1是由Stable Diffusion原班人马推出的开源图像生成模型,在文字生成、复杂指令遵循和人手生成上具备优势。FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。 -
CogVideoX-智谱推出的开源AI视频生成模型
CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。 -
Stable Fast 3D(SF3D):单张图片快速生成高质量3D模型
Stable Fast 3D是由Stability AI推出的最新AI模型,能够迅速从单张图片生成高质量的3D模型。在短短0.5秒内,用户即可获得包含UV展开网格和材质参数的精细3D资产,这不仅极大提升了3D建模的效率,同时也确保了输出的质量。此技术为游戏开发、虚拟现实、电商产品展示以及建筑设计等众多领域带来了革命性的便利和创新可能。 -
Vidu-生数科技发布的视频大模型,可生成16秒1080P高清视频
Vidu是一个由生数科技联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。该模型采用原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。 -
Mistral Large 2:Mistral AI发布的新一代 AI 大模型
Mistral Large 2 是法国AI公司 Mistral AI 发布的新一代 AI 大语言模型, Mistral Large 2 有 1230 亿个参数和 128k 的上下文窗口,支持法语、德语、西班牙语、意大利语、中文等多语言能力,覆盖 80 多种编程语言。该模型展示了改进的推理和准确性,在 MMLU 基准测试中达到了 84%,并与 GPT-4o、Claude 3 Opus 和 Llama… -
Llama 3.1:Meta最新推出的开源大语言模型
Llama 3.1是Meta最新推出的开源大语言模型,有三种规格:80亿、700亿和4050亿参数,支持八种语言,具备128K扩展上下文长度。它提供卓越的通用知识、数学计算、多语言翻译和工具使用能力,开放下载并允许开发者定制和微调。 -
Mistral NeMo:Mistral AI和英伟达联合发布的AI小模型
Mistral NeMo是由法国AI公司Mistral AI与NVIDIA合作开发的一个120亿(12B)参数的大型语言模型。它提供高达128k tokens的上下文窗口,并且在推理、世界知识和编码准确性方面达到了该规模模型的先进水平。 -
DCLM-7B:苹果最新推出的开源AI语言模型
DCLM-7B是苹果与合作伙伴一起推出的开源小型语言模型,全部开源,包括权重、训练代码和数据集。DCLM-7B性能优异,接近大型模型,采用decoder-only架构,上下文长度2048。DCLM在多个基准任务上性能出色,支持商业使用。 -
SmolLM-HuggingFace发布的高性能小型语言模型
SmolLM是由 Huggingface 最新发布的一组高性能的小型语言模型,参数分别为 1.35 亿、3.6 亿和 17 亿,训练数据来自高质量数据集 SmolLM-Corpus,其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多种基准测试中表现不错, 适合跑在手机这种终端设备上。 -
GPT-4o mini:OpenAI最新推出的AI模型,更快更便宜更智能
GPT-4o mini是由OpenAI推出的一款高性价比小型模型,具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异,在 MMLU 上得分 82%,目前优于 GPT-4,比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉,未来将支持更多形式。 -
-
讯飞星火认知大模型V3.5
讯飞星火是科大讯飞发布的认知大模型,以中文为核心的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。