截胡OpenAI：谷歌率先公测“数学奥赛金牌级”AI推理模型

来源：敢作敢当网-工人日报

2026-04-28 07:50:02

IT之家 12 月 5 日消息，科技媒体 NeoWin 今天（12 月 5 日）发布博文，报道称谷歌面向 Gemini Ultra 订阅（月费 249.99 美元）用户，推出了 Gemini 3 Deep Think（深度思考）模式。

相比较标准版 Gemini 3 Pro 模型，Deep Think 模式调用了更多计算资源，并采用了全新技术架构。该功能目前已完全集成至 Gemini App 中，Google AI Ultra 订阅用户即日起可通过在提示栏中选择“Deep Think”与 Gemini 3 Pro 模型搭配使用。

谷歌官方数据显示，Deep Think 模式在处理复杂数学、科学及逻辑问题时的推理能力实现了显著飞跃。IT之家援引博文介绍，在被誉为“业内最难 AI 基准测试之一”的 Humanity’s Last Exam 中，该模式取得了 41% 的高分，确立了新的行业标杆。

同时，在 GPQA Diamond 科学知识测试中，其得分高达 93.8%；在包含代码执行的 ARC-AGI-2 严苛测试中，也拿下了 45.1% 的成绩，均展现出业内顶尖（State-of-the-art）的性能水平。

Deep Think 模式之所以能取得如此突破，核心在于运用了先进的并行推理技术（Advanced Parallel Reasoning），让模型能够同时探索多种假设路径以寻找最优解。

值得注意的是，该模型的变体此前已在国际数学奥林匹克竞赛（IMO）和国际大学生程序设计竞赛（ICPC）世界总决赛中达到了“金牌标准”。特别是在 IMO 场景下，模型需在无法访问互联网或工具的情况下，于两个 4.5 小时的考试时段内完成解题并撰写自然语言证明。

谷歌此次公测被视为对竞争对手的有力回击。OpenAI 曾在今年 7 月声称其实验性推理大模型达到了数学奥赛金牌水平，但截至目前该模型仍未向公众开放。

随着谷歌率先将达到 IMO 金牌标准的模型推向大众市场，行业普遍预测，这一举动或将迫使 OpenAI 加快同类产品的发布节奏，大模型领域的“推理能力之战”将进一步升级。

责任编辑：敢作敢当网

媒体矩阵