6月11日,OpenAI推出了其史上最强推理模型o3-pro,并以“碾压”之势刷新多项基准测试记录,直接对标乃至超越谷歌的Gemini 2.5 Pro。
图片来源:@机器之心Pro
与此同时,主力模型o3价格暴降80%,堪称“白菜价”,AI大模型的价格战火速升级。读特新闻记者搜索发现,CEO奥特曼更是发文《温和的奇点》(The Gentle Singularity),预示一个智能与能源极度丰富的时代即将来临。
o3-pro横空出世:最强推理,性能炸裂
北京时间6月11日凌晨,OpenAI在未进行大规模预热的情况下,低调但震撼地宣布了其最新,也是迄今为止能力最强的AI模型——o3-pro的诞生。这款被誉为“史上最强推理模型”的o3-pro,即日起已向ChatGPT Pro和Team用户开放,企业和教育用户预计下周即可接入。
OpenAI CEO山姆·奥特曼称“当第一次看到它(o3-pro)相对o3的胜率时,自己完全惊呆了”。o3-pro并非简单的升级,它专为深度思考和提供超可靠答案而生,能够自动调用包括网页搜索、文件分析、视觉输入推理、Python代码执行在内的多种工具,并能通过记忆功能实现个性化响应。
图片来源:新智元

在性能表现上,o3-pro交出了一份令人瞠目的成绩单。多项基准测试显示,其在数学、科学和编程等核心推理能力上远超前代o1-pro和基础版o3。更引人注目的是,据OpenAI内部测试及早期用户反馈,o3-pro在关键的数学基准测试AIME 2024中超越了谷歌的Gemini 2.5 Pro(0605版),在博士级科学测试GPQA Diamond中击败了Anthropic的Claude 4 Opus。在更为严苛的“4/4可靠性”评估(即模型4次尝试均回答正确才算成功)中,o3-pro在数学、编程和博士级科学问答中也大幅领先。

图片来源:新智元
不过,在ARC-AGI半封闭评估中,o3-pro的表现与o3基本持平,但成本更高。有趣的是,降价后的o3反而在ARC-AGI-1任务上刷新了SOTA(State-of-the-Art,即当前最佳水平)。OpenAI也提醒,由于o3-pro调用工具进行深度思考,其响应速度通常比o1-pro慢,更适合对可靠性要求高于速度的复杂问题。目前,o3-pro暂不支持临时对话、图像生成(仍需GPT-4o、o3等)及Canvas功能,其知识截止日期为2024年6月1日,上下文窗口大小为200k tokens,最大输出为100k tokens。
价格屠夫再挥刀:o3“白菜化”
伴随o3-pro的发布,OpenAI再次祭出降价大旗,主力模型o3的价格遭遇“史诗级”暴降80%。原先o3模型输入10美元/百万tokens、输出40美元/百万tokens的价格,直接跳水至输入2美元/百万tokens、输出8美元/百万tokens。这意味着,用户现在用1美元可以获得以往5倍的o3 token量,其价格已与GPT-4o相当,甚至输出价格更低,极具市场竞争力。
图片来源:AIbase基地
而新发布的o3-pro,其API定价为每输入百万tokens收费20美元,每输出百万tokens收费80美元。虽然是新o3价格的10倍,但相较于已被淘汰的o1-pro,o3-pro的价格便宜了整整87%。
这一系列降价组合拳,无疑在AI大模型市场投下了重磅炸弹。根据相关报告,降价后的o3比谷歌Gemini 2.5 Pro更便宜,与Anthropic的Claude 4 Sonnet价格相当,更是比Claude 4 Opus便宜了近8倍。这不仅延续了智能成本持续快速下降的趋势(达到GPT-4级别智能的成本自发布以来已降低超100倍),也势必加剧科技巨头间的“算力内卷”和价格竞争,谷歌等竞争对手的压力骤增。
图片来源:新智元
用户初体验:AGI雏形?
o3-pro的发布,迅速点燃了开发者和AI爱好者的热情。Raindrop AI的联合创始人Ben Hylak作为早期测试者,分享了他的体验。
图片来源:新智元
他认为o3-pro的“超长上下文”能力是其最大亮点,并强调与推理模型交互的最佳方式是“不要和它们聊天,而是将它们视为报告生成器:提供上下文,设定目标,然后放手让它们工作。” 在此方法下,o3-pro为Raindrop AI生成的计划和分析“非常具体、扎实,直接改变了公司领导层对于未来的思考方式。”
Hylak还盛赞o3-pro在工具调用方面的“真正飞跃”,能出色辨别自身环境并选择合适工具。他直言,o3-pro的体感与Gemini 2.5 Pro、Claude Opus“极其不同,直接碾压后两者。”
有用户称o3-pro是第一个能近乎完美处理球与墙壁真实碰撞模拟的模型,在多层编码理解力测试中也一次性通过o1-pro曾失败的挑战。另一位用户仅用2个提示,就让o3-pro用纯HTML、CSS和JS制作出细节丰富的极限空间行走模拟器。
视频来源:机器之心Pro
AI学者Ethan Mollick发现,o3-pro解决了一个其他模型都无法解决的“单词阶梯”问题(从Space到Earth,每次改一个字母),击败了Gemini 2.5 Pro。
有用户让o3-pro识别免疫系统局限性,其回复比o3“无疑更加明智、更加深思熟虑”。还有用户用o3-pro在《我的世界》中创造“宏伟形象”和“细节丰富的海盗船”,效果惊艳。甚至有用户提出了“Vibe Research”(氛围研究)的概念,预测科学研究方式将因此彻底改变。
图片来源:新智元
当然,o3-pro也并非完美。有用户反馈,若不给予足够上下文,它容易“想太多”,导致响应缓慢。Yuchen Jin测试输入“Hi im sam Altman”,o3-pro竟思考了3分54秒。这印证了OpenAI的建议:在可靠性优先于速度的复杂问题上使用o3-pro。
奥特曼预言“温和奇点”已至
山姆·奥特曼更新了个人博客,发表题为《温和的奇点》(The Gentle Singularity)的长文,并称这“可能是自己最后一次完全不借助AI写作了”。文中,奥特曼描绘了一个AI驱动的加速未来:
2025年,能够进行真正认知工作的代理系统将出现;2026年,能够提出新见解的系统可能出现;2027年,能够在现实世界中执行任务的机器人可能会出现。“在一些非常重要的方面,下一个十年很可能与以往任何时期都截然不同,智能和能源将变得异常丰富。”他认为,有了丰富的智力和能源(以及良好的治理),理论上可以拥有任何其他东西。
奥特曼还提到,“奇点就是这样:奇迹变成日常,然后成为筹码。”AI将加速AI研究,实现“递归式自我改进”的早期版本,可能在一年或一个月内完成十年的研究成果。
图片来源:山姆·奥特曼博客截图
开源模型将推迟至今年夏末
在一系列“重磅炸弹”中,奥特曼也宣布原定6月发布的开源模型将推迟至今年夏末。他解释说,团队在开发中取得了“意想不到且相当惊人”的成果,最终的开源模型“非常值得等待”,但需要更多时间完善。
图片来源:格隆汇APP
另一项引人注目的战略举措是,OpenAI计划与谷歌云(Google Cloud)合作,以满足其日益增长的计算能力需求。据悉,这项谈判已持续数月,并于今年5月在美国敲定。这一举动令市场颇感意外,毕竟谷歌一直是OpenAI及其主要投资者微软的强大竞争对手。有分析认为,这凸显了AI巨头们为满足海量计算需求,愿意暂时搁置激烈竞争。此举对谷歌云部门无疑是一次重大胜利,但也让市场持续关注ChatGPT对谷歌搜索主导地位的潜在威胁。
(综合来源:山姆·奥特曼博客、格隆汇APP、机器之心Pro、新智元)
综合 钟诗婷
审读 郭建华 二审 郑蔚珩 三审 彭健