人工智能“迎战”奥数难题
IMO 中的问题涵盖数学的多个领域。但大多数 IMO 问题都是用英语编写的,需要翻译成 AI 可以理解和验证的编程语言,以便 AI 进行机器学习。图片来源:《自然》网站
◎本报记者 刘霞
在击败人类围棋大师和顶级战略棋盘游戏专家后,谷歌的 DeepMind 人工智能 (AI) 系统在 2024 年英国巴斯国际数学奥林匹克 (IMO) 比赛中距离金牌仅差 1 分。刚刚失手并获得了银牌。这是人工智能玩家首次登上 IMO 领奖台。
英国《自然》杂志网站7月27日报道指出,DeepThinking正在与其他公司竞争解决数学领域的难题。近年来,IMO被广泛认为是对机器学习的挑战,也是衡量AI系统高级数学推理能力的理想基准。该AI系统在今年的IMO中的出色表现标志着它的下一个成功:在解决数学问题上击败世界顶尖学生。
第一次登上领奖台
“Deep Thinking”公司训练了一个专门用于回答奥数题的人工智能系统。成功答对6道竞赛题中的4道英语学习 杂志,获得28分(满分42分),达到本次比赛银牌获得者的水平。
该系统包括解决数学推理问题的模型AlphaProof和解决几何问题的AlphaGeometry的升级版AlphaGeometry 2。其中,AlphaGeometry 2解决一个几何问题,而AlphaProof解决两个代数问题和一个数论问题。
今年1月,AlphaGeometry已经展现了解决欧几里得几何问题的奖牌级选手水平。在今年的 IMO 比赛之前,AlphaGeometry 2 已经能够解决过去 25 年来 83% 的 IMO 几何问题,而它的“前辈”只能解决 53%。
DeepThink人工智能科学副总裁Pushmit Kohli指出英语学习 杂志,这是人工智能系统首次获得IMO奖牌表现。 IMO主席Gregor Dolinar也表示,AI最终将能够比人类更好地解决大多数数学问题,其进步速度令人惊叹。
大约在同一时间,软件公司 Numina 的科学家利用语言模型在人工智能奥林匹克数学竞赛(AIMO)中获得了首个“进步奖”。
但Numina团队获奖后表示,要解决更困难的数学问题英语学习 杂志,仅靠语言模型可能还不够。
与自己作斗争
AlphaProof是一个自学习系统,其核心创新在于将预训练语言模型与AlphaZero强化学习算法相结合的策略。强化学习是机器学习领域的重要学习范式,系统可以通过多次尝试找到自己解决问题的方法。
这种方法需要用 AI 能够理解和验证的语言编写大量问题,而大多数 IMO 问题都是用英语编写的。为了解决这个问题,Thomas Herbert 和他“深度思考”团队的同事使用 Google 的大型语言模型 Gemini 将这些问题翻译成一种名为 Lean 的编程语言,供 AI 学习。
AlphaProof 使用经过微调的 Gemini 模型自动将数学问题转换为 Lean 语言,创建涵盖不同难度级别的大型问题库。在强化学习阶段,系统每次验证一个证明时,都会用它来强化AlphaProof的语言模型,提高其解决后续更具挑战性问题的能力。
赫伯特表示,他们在挑战围棋游戏时使用了类似的方法:人工智能通过与自己对弈来学习如何更好地玩游戏。结果表明,在某些情况下,AlphaProof能够在无数种可能性中采取正确的步骤,展现出“灵光一闪”的能力。
还有改进的空间
尽管 AlphaProof 的表现令人印象深刻,但速度相对较慢,需要三天才能解决三个问题英语学习 杂志,而人类竞争对手只需四个半小时。此外人工智能“迎战”奥数难题,它无法回答与组合学相关的两个问题。
英国数学家 Joseph Myers 回顾了 AI 在本次 IMO 竞赛中给出的答案。他指出,AlphaProof采用的技术是否可以改进还有待观察。
英国伦敦数学科学研究所的何阳辉表示,AlphaProof等系统对于帮助数学家证明问题很有用,但它无法帮助研究人员识别需要解决和研究的问题。
DeepMind 团队表示,他们正在继续探索各种人工智能方法来推进数学推理。未来,数学研究人员将与人工智能合作验证假设并尝试新方法来解决长期未解决的数学问题。他们还希望 AlphaProof 能够通过减少错误响应来帮助改进 Google 的大型语言模型。
猜你喜欢
发表评论
评论列表