速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:003890

评论

发布
暂无评论
发现更多内容

华为手机刷微博体验更好?技术角度的分析和思考,字节跳动算法工程师总结

android 程序员 移动开发

快速理解大O复杂度

ES_her0

11月日更

十月的Android面试之旅,惨败在字节三面,幸斩获小米Offer

android 程序员 移动开发

华为突遭谷歌釜底抽薪!官方安卓不再支持华为手机,一次违反常规的Android大厂面试经历

android 程序员 移动开发

历史上最简单的一道Java面试题,但无人能通过,2021国内知名大厂Android岗面经

android 程序员 移动开发

厉害了,Android高级工程师教学,金九银十大厂面试解析视频

android 程序员 移动开发

加拿大程序员趣闻系列 2_N _ 薪酬福利篇,史上超级详细

android 程序员 移动开发

又来新需求了,急,Android怎么实现时间线效果,成体系化的神级Android进阶笔记

android 程序员 移动开发

初识 Jetpack Compose(二) :布局,移动智能终端开发报告

android 程序员 移动开发

架构实战营-毕业总结

Cingk

厉害了,这竟然是毕业一年萌新的Android大厂面筋,赶紧来看看(1)

android 程序员 移动开发

架构训练营-总结

绝影

架构训练营

原来面试讲究方法!终于从【小公司一面就挂,androidui适配如何处理

android 程序员 移动开发

几乎包含了市面上所有启动优化方案,学习路线+知识点梳理

android 程序员 移动开发

谈JavaScript中纯函数与非纯函数

devpoint

JavaScript 纯函数 11月日更

厉害了,这竟然是毕业一年萌新的Android大厂面筋,赶紧来看看

android 程序员 移动开发

原来面试的时候写精通Glide,这样问我这样答,android编程权威指南

android 程序员 移动开发

YAML初探

程序员架构进阶

容器 yaml 配置管理 11月日更

架构训练营毕业总结

喻高咏        

架构训练营

架构学习总结

俊杰

华为花瓣搜索的新解读:让开发者透过垂直生态,掘金全球

脑极体

架构训练营第 1 期 模块九作业(毕业设计)

高远

动态加载 so 注意事项&案例,熬夜整理Android高频面试题

android 程序员 移动开发

十余年Android开发分享:Android 开发现状与未来,40道安卓面试

android 程序员 移动开发

即将30岁的Android程序员,而立之年想跟大家说点什么,android适配屏幕大小

android 程序员 移动开发

尝试一下最新的OV框架

IT蜗壳-Tango

11月日更

初级开发:我还在Android路上披荆斩棘,转眼就被大厂的程序员凡尔赛了

android 程序员 移动开发

半路Android,开发5年才8K+-Android还能打吗,flutter瀑布流卡顿

android 程序员 移动开发

参考微信模块化通信具体实现,android开发从入门到精通pdf下载

android 程序员 移动开发

又来新需求了,急,Android怎么实现时间线效果(1),android开发面试自我介绍

android 程序员 移动开发

尝试一下最新的OV框架

IT蜗壳-Tango

11月日更

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章