AIHub最新消息,北京时间 9 月 13 日凌晨,OpenAI 发布了OpenAI o1 系列模型,包括 o1-preview 和 o1-mini,官方称其为「草莓」。下面我们来一起了解下。
OpenAI o1是什么?
OpenAI o1 是由OpenAI最新发布的人工智能大模型,包含o1-preview和o1-mini两个版本,旨在通过强化学习与思维链技术提升复杂推理能力。该模型的核心特性是能够花费更多时间进行推理,模仿人类的思考方式,尤其在科学、数学和编程领域表现突出。OpenAI o1 在复杂推理、科学计算、数学和编程领域的表现远超之前的 GPT-4o。尤其是在科学与数学测试中,o1 的表现堪称卓越。虽然在某些简单任务中,其表现不如 GPT-4o,但在推理能力和逻辑严谨性方面,o1 是当前性能最为优异的模型之一。
OpenAI o1的功能特性
1. 增强的复杂推理能力
- 思维链(Chain of Thought, CoT):o1 通过嵌入思维链技术,可以将复杂问题拆解为多个步骤进行推理,模仿人类的思考方式。该技术尤其适用于逻辑推理、科学问题和数学计算等复杂任务,使其在这些领域表现优越。
- 多步推理:o1 能够在给出答案前花费更多时间进行多轮思考,特别是在解决复杂的科学问题或编程任务时,显著提升了准确性。
2. STEM 领域表现突出
- 科学与数学优化:o1 经过特别优化,能够在科学(如物理、化学、生物)和数学等领域超越 GPT-4o,并在某些测试中达到或超过人类专家水平。在一些基准测试(如 GPQA 和 AIME 数学竞赛)中,o1 展现了优异的成绩。
- 编程能力:经过不断训练,o1 的编程能力也大幅提升,在代码竞赛等场景下表现出色,超越了大部分人类选手。
3. 支持更大的上下文窗口
- 128k token 上下文窗口:o1 支持处理大规模的上下文内容,允许更长时间的对话和推理。这使得模型能够在更复杂的对话中保持连贯性,并处理大量数据或长文本。
4. 高昂的成本与 Token 消耗
- 计费模式:o1 的计费包括推理过程中的 token 消耗,这意味着即使最终输出结果较短,推理过程中使用的 token 也会被计入总消耗。因此,使用 o1 进行复杂推理任务时,费用可能比其他模型显著增加。
5. 强化学习与优化
- 强化学习训练:通过强化学习技术,o1 在推理任务中不断优化其策略,能够识别并纠正错误,使其推理能力更接近人类水平。
- 64k 最大输出:虽然 o1 声称支持 64k token 的最大输出,但在实际使用中,输出内容往往比预期要少。
6. 安全改进
- o1 相比 GPT-4o 在安全性上有所提升,减少了生成错误信息(即“幻觉现象”)。尤其是在涉及高复杂度推理的场景中,o1 提供了更加可靠和准确的回答。
OpenAI o1的性能评测
1. 复杂推理能力
- GPQA 测试:在化学、物理、生物等领域的 GPQA(General Professional Quality Assessment)测试中,o1 的表现甚至超越了博士级专家,展现了强大的科学推理能力。
2. 数学能力评测
- AIME 数学竞赛:在美国数学邀请赛(AIME)中,o1 的表现远超 GPT-4o。GPT-4o 的平均得分仅为 12%,而 o1 达到了 74%。在使用更大样本量时,准确率进一步提升至 93%,达到了美国前 500 名高中生的水平。
- GSM8K 数学推理测试:在 GSM8K 的数学推理测试中,o1 展现了比之前模型更为严谨和准确的推理过程,能够更好地理解问题并给出正确的解决方案。
3. 编程能力
- 编程竞赛测试:o1 在模拟编程竞赛中的表现优异,得分超过了 93% 的人类选手。在一些复杂的编程任务中,o1 展现了卓越的代码生成和错误修正能力,编程能力大幅提升。
4. 人类偏好评估
- 用户偏好测试:在推理要求较高的场景中,人类评估者普遍更偏向于 o1 的输出,认为其思考过程更接近人类的思维方式。在推理要求不高的场景中,GPT-4o 仍然占有一定优势,但 o1 在复杂任务上展现出了更稳定的表现。
5. 安全性与准确性
- 幻觉现象减少:相比 GPT-4o,o1 在生成虚假或错误信息(即幻觉现象)方面有显著减少。其输出更准确,在长时间推理任务中表现得更加可靠,尤其在科学计算和复杂问题解决上更加可信。
如何使用OpenAI o1?
目前OpenAI o1已经上线到ChatGPT和OpenAI开发者平台。
1、个人用户:
ChatGPT Plus和团队用户即日起便可以访问o1预览版和o1-mini,而企业和教育用户将在下周初获得访问权限。
- o1-mini:50 条/周
- o1-preview:30 条/周
使用地址:https://chatgpt.com/?model=o1-preview
2、开发者用户:
对于开发者用户,如果你的等级在 Tire5 (支付金额>1000 美金),目前已经可以通过接口进行调用:
- o1-preview:20 RPM,30,000,000 TPM
- o1-mini:20 RPM,150,000,000 TPM
在API中,o1-preview中每100万个token的输入价格为15美元,输出价格为60美元,较GPT-4o高出3-4倍。
使用地址:https://platform.openai.com/playground/chat?models=o1-mini
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。