-
-
Gen-4:Runway推出的新一代AI视频生成模型
Runway Gen-4 是由 Runway 推出的第四代视频生成模型,具备高度一致性、多视角控制、风格保持和镜头构图能力。该模型支持通过文字描述或图像参考,生成高质量、连续性强的视频内容。 -
SkyReels-V2:昆仑万维开源的无限时长电影生成模型
SkyReels-V2 是由昆仑万维开源的一款视频生成大模型,首创“扩散强迫(Diffusion-forcing)”训练框架,具备生成高保真、连贯、长时长(30s 以上)的影视级视频的能力。模型融合了多模态大语言模型(MLLM)、强化学习、视频理解与扩散优化等多项技术,适用于故事生成、图像到视频(I2V)、运镜控制和多元素一致性生成等丰富场景。 -
Monkey:华中科技大学开源的多模态大模型
Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。 -
Grok-1:马斯克xAI发布的开源AI大模型,可商用
Grok-1是Elon Musk旗下AI公司xAI发布的开源AI大模型,具有3140 亿个参数,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings。 -
云从从容大模型
云从从容大模型是由中国领先的人工智能公司云从科技推出的一种先进的人机协同操作系统(CWOS)。这个系统采用了多模态的人工智能技术,包括但不限于视觉识别、自然语言处理、语音识别等。它的目标是实现数字世界与物理世界之间的无缝连接,为各种应用和服务提供智能化的解决方案。 -
Step-1V:阶跃星辰推出的千亿参数多模态大模型
Step-1V是阶跃星辰研发的一款千亿参数的多模态大模型。这个模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。 -
启元重症大模型:腾讯与迈瑞联合推出的全球首个面向ICU的智能医疗大模型
启元重症大模型是由腾讯联合迈瑞医疗开发的全球首个针对ICU场景的智能医疗大模型,旨在通过实时监测患者生命体征、快速生成病情总结、提供诊疗建议以及自动生成病历等功能,全面辅助重症医疗工作。该模型结合医学知识图谱,覆盖98%的医学知识,具备强大的理解与生成能力,为医护人员提供精准的诊疗支持,提升工作效率,减轻工作负担,同时为患者争取更多的治疗机会。 -
-
Step-1X:阶跃星辰推出的文生图AI大模型
Step-1X是阶跃星辰推出的文生图大模型,具备强大的图像生成能力,它能够通过输入的文本描述生成高质量、高分辨率的图像,特别擅长处理和理解中文文本。该模型使用自研的DiT架构,具备深度语义理解和细节捕捉能力,能够将复杂的文本语义转化为图像特征,生成与描述高度匹配的视觉内容。此外,Step-1X 还支持风格迁移,使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。 -
-
知彼阿尔法-企查查商业查询大语言模型
企查查“知彼阿尔法”商查大模型是全球首款商查垂直领域大模型,该模型基于企查查覆盖的全球企业信用数据进行训练,相较于当前AIGC(生成式人工智能)领域其它模型,企查查“知彼阿尔法”大模型最大的亮点在于用垂直领域的海量数据进行训练,保证信息的精准度。 -
GPT-4o:OpenAI最新发布的多模态AI大模型,可实时推理音频、视觉和文本
GPT-4o是OpenAI推出的最新一代大型语言模型,它集合了文本、图片、视频、语音的全能模型,能够实时响应用户需求,并通过语音进行实时回答。GPT-4o具有强大的逻辑推理能力,其速度是前代模型GPT-4 Turbo的两倍,而成本降低了50%。 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型,参数约 660B,上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升,特别是在数学、代码和百科知识评测中表现优异。 -
豆包1.5·深度思考模型:火山引擎推出的AI推理模型
在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,在AIME 2024、Codeforces、GPQA等多项权威基准上达到或接近业界第一梯队水平。支持128k上下文窗口,16k输出。 -
PandaGPT-多模态AI大模型
首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU)执行指令遵循数据的基础模型。在没有明确多模态监督的情况下,PandaGPT展现出了强大的多模态能力。 -
GLM-4-Voice:智谱推出的端到端情感语音模型
GLM-4-Voice是智谱推出的端到端情感语音模型,具备理解和表达情感、实时交互、语速调节、多语言和多方言支持等功能。作为一个情感语音模型,GLM-4-Voice能够实现更加自然、细腻的语音交流,例如在对话中表达喜怒哀乐等情绪。 -
-
EMO-阿里巴巴发布的AI肖像视频生成框架
EMO是一个由阿里巴巴发布的音频驱动的肖像视频生成框架。它能够通过单一参考图像和音频输入,生成具有丰富表情和多样头部姿势的虚拟角色视频。EMO利用先进的注意力机制和去噪网络,支持多语言和多种肖像风格的动态表现,为内容创作和虚拟角色动画制作提供了新工具。 -
华为-盘古AI大模型
根据华为云官网消息,华为旗下的盘古系列AI大模型即将上线,该系列AI大模型中的NLP大模型、CV大模型、科学计算大模型(气象大模型)已经标记为即将上线状态。 据悉,盘古大模型采用了深度学习和自然语言处理技术,并使用了大量的中文语料库进行训练。该模型拥有超过1千亿个参数,可以支持多种自然语言处理任务,包括文本生成、文本分类、问答系统等等。 其中,盘古NLP大模型是被认为最接近人类中文理解能力的AI大… -
腾讯混元T1:腾讯推出的最新深度思考推理模型
腾讯混元 T1 是腾讯推出的最新深度思考推理模型,具备强大的分析和推理能力,能够清晰、有依据地回答复杂问题。T1 还支持联网搜索,结合实时信息提供更准确的答案。 -
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数,并已通过国家生成式人工智能服务备案,是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展,通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。 -
-
ACE-Step:阶跃星辰和ACE Studio联合发布的开源音乐基础模型
ACE-Step 是由阶跃星辰与 ACE Studio 联合开源的音乐大模型,旨在为音乐爱好者提供高效、灵活且高质量的音乐创作工具。该模型参数量为 3.5B,具备多语言支持、快速生成、强可控性及易于拓展等特点,支持多种音乐创作场景,如音频编辑、人声合成、伴奏生成等。 -
SYMPLEX:北大推出的功能基因深度挖掘大模型
SYMPLEX 是由北京大学钱珑团队发布的功能基因深度挖掘大模型平台,专为生物制造和合成生物元件设计服务。平台结合大语言模型能力与结构化生物知识,能够从海量文献中自动提取与标注功能基因,并提供基因功能推荐、结构分析与知识图谱生成等功能,推动从序列到应用的基因资源发现。 -
Qwen2-Math:阿里巴巴最新开源的数学推理大模型
Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。 -
-
Meta Movie Gen:Meta推出的AI视频音频生成模型
Meta Movie Gen是由Meta推出的AI视频音频生成模型,能够通过简单的文本输入生成高质量的视频和音效,还支持精准的视频编辑。用户可以输入文本描述生成高清视频、上传图像制作个性化视频,或根据指令修改视频内容。Movie Gen 还可以生成与视频同步的背景音乐和音效,适合内容创作者、电影制作人等使用。 -
火山方舟-一站式大模型服务平台
火山方舟是一个开放的大模型生态平台,它提供了一系列功能,包括模型广场、模型体验、模型训练推理和模型应用。这个平台旨在加速大模型能力渗透到千行百业,助力模型提供方和使用者实现商业新增长。 -
TransGPT:国内首个综合交通大模型
TransGPT是国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。 -
通义万相Wan2.1- 阿里推出的开源视频生成大模型
通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型,专注于从文本生成高质量图像和视频。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。 -
灵医大模型-百度发布的产业级医疗大模型
9 月 19 日消息,百度今日发布国内首个“产业级”医疗大模型 —— 灵医大模型,并面向大健康上下游产业开放灵医大模型测评、试用,推动医疗行业的数字化和智能化进程。 -
星火深度推理模型X1
星火深度推理模型X1是科大讯飞推出的首个具备深度思考和推理能力的大型AI模型。它基于全国产算力训练,拥有较高的数学能力和推理能力,能够在较少算力的情况下提供业界领先的效果,并成功实现了在实际场景中的应用。 -
-
K1:Kimi 推出的全新一代视觉思考模型
K1 是由 Kimi 发布的全新一代视觉思考模型,k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。 -
-
-
林龙大模型:中国林科院推出的国内首个林草行业大模型
林龙大模型是中国林科院推出的国内首个林草行业大模型,基于DeepSeek大模型构建。它专为林草行业设计,融合多模态数据与行业知识,具备高效处理时空数据、低资源适配、高扩展性等优势,可应用于树种识别、病虫害监测、生态系统评估等八大场景,助力林草行业智能化转型与高质量发展。 -
Step-Video-T2V:阶跃星辰推出的开源视频生成大模型
Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型,具备300亿参数量,能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成,能够根据文本输入生成符合物理规律的视频。 -
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。