首次击败人类数学天才,高中生最难数学考试被DeepMind AI攻克了

钛度号
AI首次超过了IMO金牌得主水平。

文 | 学术头条

让人类高中生头疼的最难数学考试——国际数学奥林匹克竞赛(IMO)——被人工智能(AI)攻克了。

在一项近期公布的研究中,Google DeepMind 团队称他们的几何解题系统 AlphaGeometry 解决了 84%(42/50)的几何难题,其表现首次超过了 IMO 平均金牌得主(40.9/50)的水平。

此外,去年 7 月,AlphaGeometry 也“联手”AlphaProof(一个基于强化学习的形式数学推理新系统),在当年 IMO 中首次达到了银牌获得者的水平。

AlphaGeometry2 是 AlphaGeometry 的显著改进版本。它是一个神经符号混合系统,其语言模型基于 Gemini并在比其前身多一个数量级的合成数据上从头开始训练。这帮助模型解决更具有挑战性的几何问题,包括关于物体运动和角度、比例或距离的方程问题。

AlphaGeometry2 使用的符号引擎比其前身快两个数量级。面对新问题时,一种新颖的知识共享机制被用来实现不同搜索树的先进组合,以解决更复杂的问题。

对此,伦敦帝国理工学院数学家 Kevin Buzzard 评价道:“我想,不久之后,计算机就能在 IMO 竞赛中拿满分了”。

相关研究论文以“Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2”为题,已发布在预印本网站 arXiv 上。

更强的数学推理,速度提升 300 倍

AlphaGeometry2(AG2)是 Google DeepMind 开发的一款神经-符号混合 AI 系统,用于解决国际数学奥林匹克(IMO)的几何问题。

AG2 结合了语言模型(Neural)和符号推理引擎(Symbolic),采用一种混合推理方法(neuro-symbolic approach)来解决几何问题。相比其前代 AlphaGeometry(AG1),AG2 在解题率、搜索算法、语言模型和符号推理方面都有重大改进,首次超越了 IMO 平均金牌得主的表现。

据论文描述,AG2 在原始 AlphaGeometry(AG1)语言的基础上进行了扩展,使其能够处理更复杂的几何问题,包括:

  • 物体移动(Locus-type Problems):AG2 新增了轨迹(locus)相关谓词,使 AI 能够推理点、直线、圆等几何对象的移动;

  • 线性方程问题(Linear Equations):AG2 现在可以解析涉及角度、比例和距离的线性方程;

  • 新的几何谓词(Predicates):AG2 语言新增了多个谓词,以支持更复杂的几何推理。

    这些扩展将 AG2 语言的覆盖率(coverage rate)从 66% 提高到了 88%,使其能够处理更多 IMO 几何题目。

图|AG2 与 AG1 的训练数据分布对比(a-c): a.与 AG1 相比,AG2 包含更复杂/更长的问题; b.AG2 在每种问题类型的示例分布上更加均衡; c.G2 在包含辅助点的证明与不包含辅助点的证明之间具有更均衡的比例)

此外,AG2 还采用了 Gemini 语言模型,相比 AG1 具有更强的数学推理能力。该语言模型用于预测几何构造(如辅助线、角度计算等),并帮助生成解题步骤,其训练数据包含 3 亿条自动生成的定理和证明,大幅扩展了 AI 的数学知识库。

同时,AG2 采用了一种新型搜索算法(Shared Knowledge Search Trees, SKEST),引入知识共享机制,将多个搜索树(multiple search trees)结合在一起,相比 AG1 仅用单一搜索策略,AG2 允许不同搜索路径可以共享已验证的数学推理,显著提升了 IMO 竞赛的求解能力。

图|搜索算法概览:将多个搜索树结合在一起并通过一种特殊的知识共享机制,在它们之间共享已证明的推理

不仅如此,相比 AG1 的符号引擎,AG2 在求解速度上提升 300 倍,并且新增处理“双点”能力,能够解决一些需要构造多个相交点的问题。

探索可泛化 AI

尽管 AG2 已经取得突破性进展,但仍存在一定局限性。在 AG2 未能解决的题目中,有 6 道 IMO 题目因涉及变量点个数、不等式、非线性方程而未能求解,因 AG2 语言尚不支持这些类型;2 道题目涉及更高级的几何技术(如反演、投影几何、根轴法),目前也未在 AG2 的符号引擎中实现。

DeepMind 团队表示,未来 AlphaGeometry 的改进方向将包括处理涉及不等式和非线性方程的数学问题,这些能力对于“完全解决几何问题”至关重要;此外,进一步改进自动数学公式化(Auto-Formalization)技术,使 AI 能更准确地从自然语言解析数学问题也在团队的计划当中。

另外,研究表明,AG2 不仅能够生成辅助构造(auxiliary constructions),还能推导出完整的证明(full proofs),这表明当前的语言模型有潜力在无需外部工具(如符号推理引擎)的情况下独立运行。如果他们的设想正确,这些解题能力可能会成为未来通用人工智能(AGI)的一个重要组成部分。

AlphaGeometry2 或许表明,符号操作和神经网络这两种方法的结合 ,是探索可泛化 AI 的一条有希望的道路事实上,根据 DeepMind 的论文,同样具有神经网络架构的 o1 无法解决 AlphaGeometry2 能够解答的任何 IMO 问题。

本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 这AI的潜力真的无限。

    回复 2月11日 · via android
  • AlphaGeometry2表现惊艳,AI发展又迈大步。

    回复 2月11日 · via pc
  • 这么复杂的数学题AI都能解,太厉害了

    回复 2月10日 · via pc
  • AI在数学竞赛上超越人类,未来太震撼了

    回复 2月10日 · via android
  • AI攻克IMO难题,人类教育要变天了

    回复 2月10日 · via h5

快报

更多

2025-03-12 21:40

亚马逊、谷歌和Meta承诺支持“2050核电翻三倍”,呼吁核能扩张

2025-03-12 21:38

国家知识产权局:加快将专利成果应用到具体产业和产业链上,做大做强专利密集型产业

2025-03-12 21:37

中央网信办:深化网络综合治理,筑牢网络安全防线

2025-03-12 21:36

布伦特原油日内涨幅达1%

2025-03-12 21:34

美股高开高走,纳指涨幅扩大至超2%

2025-03-12 21:34

加拿大准备对价值300亿加元的美国商品征收报复性关税

2025-03-12 21:32

美股开盘:三大指数集体高开,纳指涨1.58%,特斯拉涨超7%

2025-03-12 21:27

恒工精密:公司在机器人减速机及人形机器人相关领域的主要产品收入占比较低

2025-03-12 21:25

平安健康扭亏为盈,2024年实现净利润1.58亿元

2025-03-12 21:25

天津大学研发出新型水凝胶为类风湿性关节炎治疗提供新方法

2025-03-12 21:20

美国商务部长:寻求在周四与加拿大官员的谈判中使贸易战局势降温

2025-03-12 21:19

紫天科技:存在无法在规定期限内完成整改的实质性风险

2025-03-12 21:18

7连板信隆健康:公司及实控人均不存在涉及各类机器人及小米机器人业务

2025-03-12 21:18

美国参议员宣布将重新提出《比特币战略储备法案》

2025-03-12 21:08

腾景科技:拟购买迅特通信100%股份,股票明日复牌

2025-03-12 21:07

欧佩克月报:二手资料显示,沙特2月原油产量增加1.8万桶/日

2025-03-12 21:03

波罗的海干散货运价指数涨8.57%

2025-03-12 21:03

欧佩克月报:2月份欧佩克+原油产量平均为4101万桶/日

2025-03-12 21:01

欧佩克月报:预计2025年全球原油需求增速预期为145万桶/日

2025-03-12 21:01

国内期货夜盘开盘多数上涨,沪银、沪铜涨超1%

5

扫描下载App