首次击败人类数学天才 让高中生头疼的数学考试被DeepMind AI攻克了

站长云网 2025-02-09 学术头条 站长云网

让人类高中生头疼的最难数学考试——国际数学奥林匹克竞赛(IMO)——被人工智能(AI)攻克了。在一项近期公布的研究中,GoogleDeepMind团队称他们的几何解题系统AlphaGeometry解决了84%(42/50)的几何难题,其表现首次超过了IMO平均金牌得主(40.9/50)的水平。

此外,去年7月,AlphaGeometry也“联手”AlphaProof(一个基于强化学习的形式数学推理新系统),在当年IMO中首次达到了银牌获得者的水平。

AlphaGeometry2是AlphaGeometry的显著改进版本。它是一个神经符号混合系统,其语言模型基于Gemini并在比其前身多一个数量级的合成数据上从头开始训练。这帮助模型解决更具有挑战性的几何问题,包括关于物体运动和角度、比例或距离的方程问题。

AlphaGeometry2使用的符号引擎比其前身快两个数量级。面对新问题时,一种新颖的知识共享机制被用来实现不同搜索树的先进组合,以解决更复杂的问题。

对此,伦敦帝国理工学院数学家KevinBuzzard评价道:“我想,不久之后,计算机就能在IMO竞赛中拿满分了”。

相关研究论文以“Gold-medalistPerformanceinSolvingOlympiadGeometrywithAlphaGeometry2”为题,已发布在预印本网站arXiv上。

01更强的数学推理,速度提升300倍

AlphaGeometry2(AG2)是GoogleDeepMind开发的一款神经-符号混合AI系统,用于解决国际数学奥林匹克(IMO)的几何问题。

AG2结合了语言模型(Neural)和符号推理引擎(Symbolic),采用一种混合推理方法(neuro-symbolicapproach)来解决几何问题。相比其前代AlphaGeometry(AG1),AG2在解题率、搜索算法、语言模型和符号推理方面都有重大改进,首次超越了IMO平均金牌得主的表现。

据论文描述,AG2在原始AlphaGeometry(AG1)语言的基础上进行了扩展,使其能够处理更复杂的几何问题,包括:

物体移动(Locus-typeProblems):AG2新增了轨迹(locus)相关谓词,使AI能够推理点、直线、圆等几何对象的移动;

线性方程问题(LinearEquations):AG2现在可以解析涉及角度、比例和距离的线性方程;

新的几何谓词(Predicates):AG2语言新增了多个谓词,以支持更复杂的几何推理。

这些扩展将AG2语言的覆盖率(coveragerate)从66%提高到了88%,使其能够处理更多IMO几何题目。


图|AG2与AG1的训练数据分布对比(a-c):a.与AG1相比,AG2包含更复杂/更长的问题;b.AG2在每种问题类型的示例分布上更加均衡;c.G2在包含辅助点的证明与不包含辅助点的证明之间具有更均衡的比例)

此外,AG2还采用了Gemini语言模型,相比AG1具有更强的数学推理能力。该语言模型用于预测几何构造(如辅助线、角度计算等),并帮助生成解题步骤,其训练数据包含3亿条自动生成的定理和证明,大幅扩展了AI的数学知识库。

同时,AG2采用了一种新型搜索算法(SharedKnowledgeSearchTrees,SKEST),引入知识共享机制,将多个搜索树(multiplesearchtrees)结合在一起,相比AG1仅用单一搜索策略,AG2允许不同搜索路径可以共享已验证的数学推理,显著提升了IMO竞赛的求解能力。


图|搜索算法概览:将多个搜索树结合在一起并通过一种特殊的知识共享机制,在它们之间共享已证明的推理

不仅如此,相比AG1的符号引擎,AG2在求解速度上提升300倍,并且新增处理“双点”能力,能够解决一些需要构造多个相交点的问题。

02探索可泛化AI

尽管AG2已经取得突破性进展,但仍存在一定局限性。在AG2未能解决的题目中,有6道IMO题目因涉及变量点个数、不等式、非线性方程而未能求解,因AG2语言尚不支持这些类型;2道题目涉及更高级的几何技术(如反演、投影几何、根轴法),目前也未在AG2的符号引擎中实现。

DeepMind团队表示,未来AlphaGeometry的改进方向将包括处理涉及不等式和非线性方程的数学问题,这些能力对于“完全解决几何问题”至关重要;此外,进一步改进自动数学公式化(Auto-Formalization)技术,使AI能更准确地从自然语言解析数学问题也在团队的计划当中。

另外,研究表明,AG2不仅能够生成辅助构造(auxiliaryconstructions),还能推导出完整的证明(fullproofs),这表明当前的语言模型有潜力在无需外部工具(如符号推理引擎)的情况下独立运行。如果他们的设想正确,这些解题能力可能会成为未来通用人工智能(AGI)的一个重要组成部分。

AlphaGeometry2或许表明,符号操作和神经网络这两种方法的结合,是探索可泛化AI的一条有希望的道路事实上,根据DeepMind的论文,同样具有神经网络架构的o1无法解决AlphaGeometry2能够解答的任何IMO问题。

责任编辑:站长云网