最强推理模型？OpenAI o3-pro深夜“炸场”！奥特曼预言“温和奇点”已至

读特客户端

读特在线，您的新闻观察眼

摘要

OpenAI CEO山姆·奥特曼难掩激动之情，称“当第一次看到它（o3-pro）相对o3的胜率时，自己完全惊呆了”

6月11日，OpenAI推出了其史上最强推理模型o3-pro，并以“碾压”之势刷新多项基准测试记录，直接对标乃至超越谷歌的Gemini 2.5 Pro。

图片来源：@机器之心Pro

与此同时，主力模型o3价格暴降80%，堪称“白菜价”，AI大模型的价格战火速升级。读特新闻记者搜索发现，CEO奥特曼更是发文《温和的奇点》（The Gentle Singularity），预示一个智能与能源极度丰富的时代即将来临。

o3-pro横空出世：最强推理，性能炸裂

北京时间6月11日凌晨，OpenAI在未进行大规模预热的情况下，低调但震撼地宣布了其最新，也是迄今为止能力最强的AI模型——o3-pro的诞生。这款被誉为“史上最强推理模型”的o3-pro，即日起已向ChatGPT Pro和Team用户开放，企业和教育用户预计下周即可接入。

OpenAI CEO山姆·奥特曼称“当第一次看到它（o3-pro）相对o3的胜率时，自己完全惊呆了”。o3-pro并非简单的升级，它专为深度思考和提供超可靠答案而生，能够自动调用包括网页搜索、文件分析、视觉输入推理、Python代码执行在内的多种工具，并能通过记忆功能实现个性化响应。

图片来源：新智元

在性能表现上，o3-pro交出了一份令人瞠目的成绩单。多项基准测试显示，其在数学、科学和编程等核心推理能力上远超前代o1-pro和基础版o3。更引人注目的是，据OpenAI内部测试及早期用户反馈，o3-pro在关键的数学基准测试AIME 2024中超越了谷歌的Gemini 2.5 Pro（0605版），在博士级科学测试GPQA Diamond中击败了Anthropic的Claude 4 Opus。在更为严苛的“4/4可靠性”评估（即模型4次尝试均回答正确才算成功）中，o3-pro在数学、编程和博士级科学问答中也大幅领先。

图片来源：新智元

不过，在ARC-AGI半封闭评估中，o3-pro的表现与o3基本持平，但成本更高。有趣的是，降价后的o3反而在ARC-AGI-1任务上刷新了SOTA（State-of-the-Art，即当前最佳水平）。OpenAI也提醒，由于o3-pro调用工具进行深度思考，其响应速度通常比o1-pro慢，更适合对可靠性要求高于速度的复杂问题。目前，o3-pro暂不支持临时对话、图像生成（仍需GPT-4o、o3等）及Canvas功能，其知识截止日期为2024年6月1日，上下文窗口大小为200k tokens，最大输出为100k tokens。

价格屠夫再挥刀：o3“白菜化”

伴随o3-pro的发布，OpenAI再次祭出降价大旗，主力模型o3的价格遭遇“史诗级”暴降80%。原先o3模型输入10美元/百万tokens、输出40美元/百万tokens的价格，直接跳水至输入2美元/百万tokens、输出8美元/百万tokens。这意味着，用户现在用1美元可以获得以往5倍的o3 token量，其价格已与GPT-4o相当，甚至输出价格更低，极具市场竞争力。

图片来源：AIbase基地

而新发布的o3-pro，其API定价为每输入百万tokens收费20美元，每输出百万tokens收费80美元。虽然是新o3价格的10倍，但相较于已被淘汰的o1-pro，o3-pro的价格便宜了整整87%。

这一系列降价组合拳，无疑在AI大模型市场投下了重磅炸弹。根据相关报告，降价后的o3比谷歌Gemini 2.5 Pro更便宜，与Anthropic的Claude 4 Sonnet价格相当，更是比Claude 4 Opus便宜了近8倍。这不仅延续了智能成本持续快速下降的趋势（达到GPT-4级别智能的成本自发布以来已降低超100倍），也势必加剧科技巨头间的“算力内卷”和价格竞争，谷歌等竞争对手的压力骤增。

图片来源：新智元

用户初体验：AGI雏形？

o3-pro的发布，迅速点燃了开发者和AI爱好者的热情。Raindrop AI的联合创始人Ben Hylak作为早期测试者，分享了他的体验。

图片来源：新智元

他认为o3-pro的“超长上下文”能力是其最大亮点，并强调与推理模型交互的最佳方式是“不要和它们聊天，而是将它们视为报告生成器：提供上下文，设定目标，然后放手让它们工作。” 在此方法下，o3-pro为Raindrop AI生成的计划和分析“非常具体、扎实，直接改变了公司领导层对于未来的思考方式。”

Hylak还盛赞o3-pro在工具调用方面的“真正飞跃”，能出色辨别自身环境并选择合适工具。他直言，o3-pro的体感与Gemini 2.5 Pro、Claude Opus“极其不同，直接碾压后两者。”

有用户称o3-pro是第一个能近乎完美处理球与墙壁真实碰撞模拟的模型，在多层编码理解力测试中也一次性通过o1-pro曾失败的挑战。另一位用户仅用2个提示，就让o3-pro用纯HTML、CSS和JS制作出细节丰富的极限空间行走模拟器。

视频来源：机器之心Pro

AI学者Ethan Mollick发现，o3-pro解决了一个其他模型都无法解决的“单词阶梯”问题（从Space到Earth，每次改一个字母），击败了Gemini 2.5 Pro。

有用户让o3-pro识别免疫系统局限性，其回复比o3“无疑更加明智、更加深思熟虑”。还有用户用o3-pro在《我的世界》中创造“宏伟形象”和“细节丰富的海盗船”，效果惊艳。甚至有用户提出了“Vibe Research”（氛围研究）的概念，预测科学研究方式将因此彻底改变。

图片来源：新智元

当然，o3-pro也并非完美。有用户反馈，若不给予足够上下文，它容易“想太多”，导致响应缓慢。Yuchen Jin测试输入“Hi im sam Altman”，o3-pro竟思考了3分54秒。这印证了OpenAI的建议：在可靠性优先于速度的复杂问题上使用o3-pro。

奥特曼预言“温和奇点”已至

山姆·奥特曼更新了个人博客，发表题为《温和的奇点》（The Gentle Singularity）的长文，并称这“可能是自己最后一次完全不借助AI写作了”。文中，奥特曼描绘了一个AI驱动的加速未来：

2025年，能够进行真正认知工作的代理系统将出现；2026年，能够提出新见解的系统可能出现；2027年，能够在现实世界中执行任务的机器人可能会出现。“在一些非常重要的方面，下一个十年很可能与以往任何时期都截然不同，智能和能源将变得异常丰富。”他认为，有了丰富的智力和能源（以及良好的治理），理论上可以拥有任何其他东西。

奥特曼还提到，“奇点就是这样：奇迹变成日常，然后成为筹码。”AI将加速AI研究，实现“递归式自我改进”的早期版本，可能在一年或一个月内完成十年的研究成果。

图片来源：山姆·奥特曼博客截图

开源模型将推迟至今年夏末

在一系列“重磅炸弹”中，奥特曼也宣布原定6月发布的开源模型将推迟至今年夏末。他解释说，团队在开发中取得了“意想不到且相当惊人”的成果，最终的开源模型“非常值得等待”，但需要更多时间完善。

图片来源：格隆汇APP

另一项引人注目的战略举措是，OpenAI计划与谷歌云（Google Cloud）合作，以满足其日益增长的计算能力需求。据悉，这项谈判已持续数月，并于今年5月在美国敲定。这一举动令市场颇感意外，毕竟谷歌一直是OpenAI及其主要投资者微软的强大竞争对手。有分析认为，这凸显了AI巨头们为满足海量计算需求，愿意暂时搁置激烈竞争。此举对谷歌云部门无疑是一次重大胜利，但也让市场持续关注ChatGPT对谷歌搜索主导地位的潜在威胁。

（综合来源：山姆·奥特曼博客、格隆汇APP、机器之心Pro、新智元）

综合钟诗婷

审读郭建华二审郑蔚珩三审彭健