清影ai生视频
当前位置:首页>AI工具>AI训练模型>OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵

OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵

AIHub最新消息,北京时间 9 月 13 日凌晨,OpenAI 发布了OpenAI o1 系列模型,包括 o1-preview 和 o1-mini,官方称其为「草莓」。下面我们来一起了解下。

OpenAI o1是什么?

OpenAI o1 是由OpenAI最新发布的人工智能大模型,包含o1-preview和o1-mini两个版本,旨在通过强化学习与思维链技术提升复杂推理能力。该模型的核心特性是能够花费更多时间进行推理,模仿人类的思考方式,尤其在科学、数学和编程领域表现突出。OpenAI o1 在复杂推理、科学计算、数学和编程领域的表现远超之前的 GPT-4o。尤其是在科学与数学测试中,o1 的表现堪称卓越。虽然在某些简单任务中,其表现不如 GPT-4o,但在推理能力和逻辑严谨性方面,o1 是当前性能最为优异的模型之一。

OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵

OpenAI o1的功能特性

1. 增强的复杂推理能力

  • 思维链(Chain of Thought, CoT):o1 通过嵌入思维链技术,可以将复杂问题拆解为多个步骤进行推理,模仿人类的思考方式。该技术尤其适用于逻辑推理、科学问题和数学计算等复杂任务,使其在这些领域表现优越。
  • 多步推理:o1 能够在给出答案前花费更多时间进行多轮思考,特别是在解决复杂的科学问题或编程任务时,显著提升了准确性。

2. STEM 领域表现突出

  • 科学与数学优化:o1 经过特别优化,能够在科学(如物理、化学、生物)和数学等领域超越 GPT-4o,并在某些测试中达到或超过人类专家水平。在一些基准测试(如 GPQA 和 AIME 数学竞赛)中,o1 展现了优异的成绩。
  • 编程能力:经过不断训练,o1 的编程能力也大幅提升,在代码竞赛等场景下表现出色,超越了大部分人类选手。

3. 支持更大的上下文窗口

  • 128k token 上下文窗口:o1 支持处理大规模的上下文内容,允许更长时间的对话和推理。这使得模型能够在更复杂的对话中保持连贯性,并处理大量数据或长文本。

4. 高昂的成本与 Token 消耗

  • 计费模式:o1 的计费包括推理过程中的 token 消耗,这意味着即使最终输出结果较短,推理过程中使用的 token 也会被计入总消耗。因此,使用 o1 进行复杂推理任务时,费用可能比其他模型显著增加。

5. 强化学习与优化

  • 强化学习训练:通过强化学习技术,o1 在推理任务中不断优化其策略,能够识别并纠正错误,使其推理能力更接近人类水平。
  • 64k 最大输出:虽然 o1 声称支持 64k token 的最大输出,但在实际使用中,输出内容往往比预期要少。

6. 安全改进

  • o1 相比 GPT-4o 在安全性上有所提升,减少了生成错误信息(即“幻觉现象”)。尤其是在涉及高复杂度推理的场景中,o1 提供了更加可靠和准确的回答。

OpenAI o1的性能评测

1. 复杂推理能力

  • GPQA 测试:在化学、物理、生物等领域的 GPQA(General Professional Quality Assessment)测试中,o1 的表现甚至超越了博士级专家,展现了强大的科学推理能力。

2. 数学能力评测

  • AIME 数学竞赛:在美国数学邀请赛(AIME)中,o1 的表现远超 GPT-4o。GPT-4o 的平均得分仅为 12%,而 o1 达到了 74%。在使用更大样本量时,准确率进一步提升至 93%,达到了美国前 500 名高中生的水平。
  • GSM8K 数学推理测试:在 GSM8K 的数学推理测试中,o1 展现了比之前模型更为严谨和准确的推理过程,能够更好地理解问题并给出正确的解决方案。

3. 编程能力

  • 编程竞赛测试:o1 在模拟编程竞赛中的表现优异,得分超过了 93% 的人类选手。在一些复杂的编程任务中,o1 展现了卓越的代码生成和错误修正能力,编程能力大幅提升。

4. 人类偏好评估

  • 用户偏好测试:在推理要求较高的场景中,人类评估者普遍更偏向于 o1 的输出,认为其思考过程更接近人类的思维方式。在推理要求不高的场景中,GPT-4o 仍然占有一定优势,但 o1 在复杂任务上展现出了更稳定的表现。

5. 安全性与准确性

  • 幻觉现象减少:相比 GPT-4o,o1 在生成虚假或错误信息(即幻觉现象)方面有显著减少。其输出更准确,在长时间推理任务中表现得更加可靠,尤其在科学计算和复杂问题解决上更加可信。
OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵
从评测结果上看,OpenAI o1显著优于 gpt-4o

如何使用OpenAI o1?

目前OpenAI o1已经上线到ChatGPT和OpenAI开发者平台。

1、个人用户:

ChatGPT Plus和团队用户即日起便可以访问o1预览版和o1-mini,而企业和教育用户将在下周初获得访问权限。

  • o1-mini:50 条/周
  • o1-preview:30 条/周

使用地址:https://chatgpt.com/?model=o1-preview

2、开发者用户:

对于开发者用户,如果你的等级在 Tire5 (支付金额>1000 美金),目前已经可以通过接口进行调用:

  • o1-preview:20 RPM,30,000,000 TPM
  • o1-mini:20 RPM,150,000,000 TPM

在API中,o1-preview中每100万个token的输入价格为15美元,输出价格为60美元,较GPT-4o高出3-4倍。

使用地址:https://platform.openai.com/playground/chat?models=o1-mini

官方博客:https://openai.com/o1/

OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵
笔灵AI论文写作
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
error: