写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:003926

评论

发布
暂无评论
发现更多内容

从静态到动态化,Python数据可视化中的Matplotlib和Seaborn

华为云开发者联盟

Python 开发 数据可视化 华为云 华为云开发者联盟

测试外包服务 | 人员外包、测试工具、测试平台,全面测试解决方案

测试人

软件测试

DaVinci Resolve (达芬奇后期调色)中文破解 一键安装 永久使用

Rose

达芬奇 视频后期特效处理 DaVinci Resolve 破解

【论文速读】| 视觉对抗样本:突破对齐的大语言模型

云起无垠

Emby for Mac(多媒体影音库) 1.9.9中文版

iMac小白

DBeaverUE24好用的苹果电脑数据库(DBeaver Ultimate最新破解 )

Rose

数据库 Mac软件 DBeaver Ultimate

容器镜像加速指南:探索 Kubernetes 缓存最佳实践

SEAL安全

云计算 Kubernetes 容器

免费好用的苹果mac必备软件:Mos for Mac(鼠标增强工具)

Rose

苹果软件 鼠标增强 Mos for Mac 免费软件下载

RapidClick for Mac(鼠标自动点击工具) v1.5.1激活版

iMac小白

Radio Silence for mac(简单好用的防火墙) v3.2激活版

iMac小白

Cookie复用的妙用:数据处理中的高效利器!

霍格沃兹测试开发学社

Visio Viewer for Mac(Visio文件编辑查看工具) v3.1.0激活版

iMac小白

Illustrator 2024 for mac(标准矢量插画设计软件) v28.1中文激活版

iMac小白

datagrip永久激活破解2023 附datagrip中文安装教程

Rose

ide 编程 datagrip

Cookie复用大揭秘:助你在数据处理中事半功倍!

测吧(北京)科技有限公司

测试

App Cleaner & Uninstaller Pro for Mac(苹果应用程序清理卸载工具) v8.2.5中文激活版

iMac小白

测试外包服务 | 从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

测吧(北京)科技有限公司

测试

Magnet for mac(窗口辅助管理工具) 2.14.0中文免激活版

iMac小白

Transmit 5 for Mac(FTP客户端) 5.10.4中文版

iMac小白

Axure RP 9 for mac交互原型设计工具 最新激活版 支持M

iMac小白

WiFi7 IIOT Solution|IPQ9574 with QCN9274 Supports Up to 9 Radios Simultaneously What does it brings?

wallyslilly

WIFI7,

自定义限速功能实践——Caffeine

FunTester

5G双域专网+零信任的神奇魔法

权说安全

5G 零信任

开班通知 | 全栈开发与自动化测试高薪私教班,手把手带你拿到高薪Offer

测吧(北京)科技有限公司

测试

工具分享丨分析GreatSQL Binglog神器

GreatSQL

用了两周开源堡垒机OneTerm,我有一些建议

37丫37

优秀的数据库编辑工具:TablePlus for Mac

Rose

MySQL 数据库 Mac软件 TablePlus激活版

Premiere Pro 2024 for mac(pr2024 视频编辑器) v24.1中文激活版

iMac小白

mac创意图片编辑器:Luminar Neo破解版下载

Rose

面向中文大模型价值观的评估与对齐研究:“给AI的100瓶毒药”并解毒,守护AI纯净之心

汀丶人工智能

人工智能 大模型 大模型价值

macOS 14 Sonoma(苹果电脑mac系统) pkg完整安装包14.4正式版

Rose

苹果系统 macOS 14 Sonoma

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章