写点什么

DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则

  • 2024-01-22
    北京
  • 本文字数:2715 字

    阅读完需:约 9 分钟

大小:1.26M时长:07:20
DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则

在日前发表在《自然》杂志的论文中,谷歌 DeepMind 介绍了 AlphaGeometry。作为一套 AI 系统,它能够以比肩人类奥数冠军的水平解决复杂的几何问题。

 

在根据 2000 年至 2022 年奥数赛制整理的 30 道几何题基准测试集(IMO-AG-30)中,AlphaGeometry 在标准比赛时间内成功解决 25 道,已经非常接近人类冠军的平均得分。相比之下,此前最先进的 AI 系统(即吴文俊提出的“吴氏方法”)也只能解决 10 道题,而人类冠军则平均解决 25.9 道题。这标志着 AI 性能的又一次突破。



由于缺乏推理技能与训练数据,AI 系统往往难以攻克数学中复杂的几何问题。AlphaGeometry 系统将神经语言模型的预测能力与规则约束推导引擎相结合,以协同方式寻求正确答案。通过开发一种能够生成大量合成训练数据(包含 1 亿个独特示例)的新方法,团队得以在无需任何人类演示的情况下训练 AlphaGeometry,有效回避了数据瓶颈。

 

目前,DeepMind 已经开源 AlphaGeometry 代码及模型,希望配合合成数据生成和训练过程中的其他工具和方法,共同在数学、科学和 AI 领域开创新的可能性。

 

开源地址:https://github.com/google-deepmind/alphageometry

 

采用神经符号方法

 

AlphaGeometry 是一套神经符号系统,由神经语言模型加符号推导引擎组成,希望两相结合以寻求对复杂几何定理的证明。这类似于“快、慢思考相结合”的理念,一个系统提供快速、“直观”的想法,另一系统则做出更加深思熟虑的理性决策。

 

由于语言模型更擅长发现数据中的一般模式和关系,所以能够快速预测可能有用的潜在构造,但却往往缺乏严格推理并解释其决策的能力。另一方面,符号推导引擎则基于形式逻辑,依靠明确的规则来得出结论。后者更理性、可解释性更强,但往往比较“缓慢”且不够灵活——这一点在单独处理大型复杂问题时体现得尤其明显。

 

AlphaGeometry 的语言模型会引导其符号推导引擎为几何问题寻求可能的解。

 

奥数几何问题的题干大多基于图表,需要添加新的几何构造才能解决,例如点、线或圆。AlphaGeometry 的语言模型可以从无数种可能性中预测添加哪些新构造更有助于解题。这些线索能够填补空白,引导符号引擎对图表做进一步推论并逐步趋近正确答案。

 


AlphaGeometry 解决的一个简单问题:给定问题图及其定理前提(左),AlphaGeometry(中)首先使用符号引擎来推导关于图的新表述,直到找出正确解或用尽新表述。

 

如果找不到可行的解,AlphaGeometry 语言模型会添加一种可能有用的构造(蓝色部分,即辅助线)为符号引擎开辟新的推导路径。整个循环不断重复,直到找到正确解为止(右)。在此示例中,只需要一种新构造(一条辅助线)。

 


AlphaGeometry 解决奥数问题:2015 年国际奥数竞赛题(左)与 AlphaGeometry 的精简求解过程(右)。蓝色部分是添加的构造。AlphaGeometry 的解共涉及 109 个逻辑步骤。

 

查看完整解题过程:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry /AlphaGeometry solution.pdf

 

生成 1 亿个合成数据示例

 

几何求解的基础是对空间、距离、形状和相对位置的正确理解,也是艺术、建筑、工程和诸多其他领域的理论基础。人类可以用纸和笔来学习几何知识,观察图表并运用现有知识来发现新的、更复杂的几何属性及关系。

 

而该系统的合成数据生成方法,也大规模模拟了这种知识构建过程,使 DeepMind 得以从头开始训练 AlphaGeometry、全程无需任何人类演示。

 

该系统利用高度并行计算,首先生成十亿个随机几何对象图,并详尽推导出图中每个点和线之间的所有关系。AlphaGeometry 能够找出各图表中所包含的一切证明,而后进一步探索需要哪些附加构造(如果需要)来得出这些证明。DeepMind 把这个过程称为“符号推导与回溯”。

 


AlphaGeometry 所生成合成数据的视觉表示

 

这个庞大的数据波经过过滤以排除类似的示例,最终产生了包含 1 亿个不同难度独特示例的最终训练数据集,其中有 900 万个都添加了新构造。有了这么多通过添加新构造支持证明的例子,AlphaGeometry 语言模型就能在遇到新题时提出很好的辅助构造建议。

 

利用 AI 进行数学推导

 

AlphaGeometry 提出的每一道奥数题解法,都经过计算机检查和验证。DeepMind 还将结果与之前的 AI 方法以及人类选手在奥赛中的表现做出比较。此外,数学教练、前奥数竞赛 金牌得主 Evan Chen 也帮助对 AlphaGeometry 的解题思路进行评估。

 

Chen 表示,“AlphaGeometry 的输出令人印象深刻,因为答案既可验证又相当简洁。以往,AI 对于竞赛问题的证明存在一定偶然性(结果虽然正确,但需要人工检查)。但 AlphaGeometry 不存在这个弱点:其求解过程始终拥有机器可验证的结构,同时也保持着良好的人类可读性。”

 

“说到机器求解数学题,人们首先想到的往往是那种通过强大坐标系解决几何问题的计算机程序、特别是令人头皮发麻的繁琐代数计算。但 AlphaGeometry 不是这样,它跟人类学生一样懂得使用角度和相似三角形等经典几何规则。”Chen 说道。

 

但由于奥数竞赛总计包含六道问题,其中往往只有两道与几何相关,因此 AlphaGeometry 只能解决竞赛中三分之一的题目。尽管如此,单凭强大的几何求解能力就已经让它成为全球首个能够在 2000 年和 2015 年竞赛中取得铜牌成绩的 AI 模型。

 

而如果将题目限制在几何之内,那么这套系统的成绩几乎可以比肩奥数竞赛的金牌得主。不过 DeepMind 的目标远不止于此,他们还希望推动下一代 AI 系统踏上推理能力的新高峰。

 

考虑到大规模合成数据在从零开始训练 AI 系统方面的广泛潜力,这种方法甚至有望驱动未来 AI 系统在发现数学及其他领域新知识方面做出贡献。

 

结束语

 

“目前,AI 领域的研究人员正尝试从奥数级几何问题入手。我个人对此深表赞同,整个求解过程有点类似国际象棋,即将每一步中的合理操作数量控制在有限范围之内。但我仍然对 AI 系统的实际表现感到惊喜,也为这项令人印象深刻的成就而激动不已。”菲尔兹奖得主兼奥林匹克数学竞赛金牌得主 NGÔ BẢO CHÂU 说道。

 

AlphaGeometry 以 Google DeepMind 和谷歌研究院的工作成果为基础,开创了 AI 数学推导的先河,应用范围涵盖探索纯数学之美、以及使用语言模型解决数学和科学问题。最近,DeepMind 还推出了 FunSearch,首次使用大语言模型在开放式数学科学问题中取得发现。

 

DeepMind 表示,自己的长期目标仍然是构建起拥有跨数学领域泛化能力的 AI 系统,研究通用 AI 系统所必需的复杂问题求解与推理能力,最终帮助人类开拓知识的新前沿。

 

通过 AlphaGeometry,DeepMind 展示了 AI 系统不断增长的逻辑推理能力以及发现/验证新知识的能力。在迈向更先进、更具通用性 AI 系统的道路上,解决奥数级几何问题标志着深度数学推理的又一重大里程碑。

 

相关链接:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

 

2024-01-22 10:275420

评论

发布
暂无评论
发现更多内容

我与CI流水线的羁绊,任谁也无法斩断!

极狐GitLab

DevOps 持续集成 jenkins CI/CD 极狐GitLab

面试整理的45W字Java真题和答案详解(含核心考点及6家大厂真题)

Geek_0c76c3

Java 数据库 开源 程序员 开发

全网首发!马士兵内部共享—1658页《Java面试突击核心讲》

Geek_0c76c3

Java 数据库 开源 程序员 开发

一加是OPPO的子品牌?我来说说我的看法

Geek_8a195c

Java岗史上最全八股文面试真题汇总,堪称2022年面试天花板

Geek_0c76c3

Java 数据库 开源 程序员 开发

为了进大厂!吃透了各大厂最新 3000+Java 面试题啃完面试肯定妥了

Geek_0c76c3

Java 开源 程序员 架构 开发

软件测试 | 测试开发 | Thinkphp5 集成 Swoole

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 提高Android云真机稳定性的方法

测吧(北京)科技有限公司

测试

当下企业数字化转型,PaaS是基础解

ToB行业头条

什么是实时渲染,3D实时渲染的优缺点

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

IDC发布《中国边缘云市场解读(2022)》:阿里云蝉联中国公有云市场第一

阿里云CloudImagine

边缘计算 公有云 边缘云

ESP32-C3 学习测试 蓝牙 篇(三、认识蓝牙 GATT 协议)

矜辰所致

蓝牙 ESP32-C3 9月月更 GATT

软件测试 | 测试开发 | 相似图像的检测方法

测吧(北京)科技有限公司

测试

好的,BFS,学会了

掘金安东尼

前端 9月月更

禅道的工时管理

禅道项目管理

项目管理 工时 禅道

软件测试 | 测试开发 | 堆排序原理及实现

测吧(北京)科技有限公司

测试

Apache APISIX 集成 Elasticsearch 实现实时日志监控

API7.ai 技术团队

elasticsearch API网关 APISIX 网关

一文读懂TDengine的三种查询功能

TDengine

数据库 tdengine 时序数据库 企业号九月金秋榜

哪7个场景影响研发效能?

LigaAI

敏捷 LigaAI 企业号九月金秋榜 #敏捷开发 #程序

Vue3入门指北(五)条件渲染

Augus

Vue 3 9月月更

开发者有话说|刚毕业的“00后”,歪打误撞进入了SAP行业

暮春零贰

个人成长 9月月更

ESP32-C3 学习测试 蓝牙 篇(二、蓝牙调试APP、开发板手机连接初体验)

矜辰所致

ESP32-C3 9月月更 蓝牙APP

全方位助力数据科学组织协同&个人研究:ModelWhale 产品功能介绍与版本选择指引

ModelWhale

云计算 科技 数据科学 编程建模 组织协同

Trending热榜关闭前,我把Github今年最火Java面试题汇总扒下来了

Geek_0c76c3

Java 数据库 开源 程序员 开发

华为应用市场审核指南解读课程上线,面向开发者讲解应用审核2022年更新要点

最新动态

专访美象科技|中国数字孪生50强为何需要3DCAT实时渲染云的赋能?

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

如何使用游戏引擎进行实时渲染和内容创建

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

史上最全499道Java面试题:JVM+分布式+算法+锁+MQ+微服务+数据库

Geek_0c76c3

Java 数据库 开源 架构 面试

软件测试 | 测试开发 | Tornado 异步性能分析

测吧(北京)科技有限公司

测试

借助iMazing工具重新安装或升级 iOS系统

淋雨

ios iphone

为什么3D实时渲染很重要

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则_AI&大模型_核子可乐_InfoQ精选文章