本文最初发表于 venturebeat,由 InfoQ 中文站翻译并分享。
我们正在接近深度学习的计算极限。这是根据麻省理工学院、MIT-IBM Watson AI Lab、安德伍德国际学院(Underwood International College)和巴西利亚大学(University of Brasilia)的研究人员 最新的一项研究中发现的。
深度学习领域的进步在“很大程度上”依赖于计算机的发展。他们断言,深度学习要实现持续的进步,将需要“戏剧性的”提高更有计算效率的方法,要么通过改变现有技术,要么通过新的、尚未发现的方法。
“我们的研究表明,深度学习的计算开销并不是偶然的,而是经过设计的。这种灵活性使它在建模各种现象方面表现出色,并且优于专家模型,同时也使它的计算开销显著增加。”合著者写道,“尽管如此,我们发现深度学习模型的实际计算负担比理论(已知)下限增长得更快,这表明实质性的改进是有可能的。
深度学习是机器学习的一个子领域,研究受大脑结构和功能启发的算法。这些算法被称为人工智能网络,它由层层排列的函数(神经元)组成,它们将信号传递给其他神经元。这些信号是输入到网络中的数据的产物,从一层传递到另一层,并对网络进行缓慢的“调整”,实际上是在调整每个连接的突触强度(权重)。通过数据集中提取特征并识别交叉样本的趋势,网络最终学会做出预测。
研究人员分析了预印本服务器 Arxiv.org 以及其他基准源的 1058 篇论文,以了解深度学习性能和计算之间的联系,特别关注包括图像分类、对象检测、问答系统、命名实体识别和机器翻译等领域。他们对计算需求进行了两次单独分析,反映可用信息的两种类型:
每次网络传递的计算量 ,或给定深度学习模型中,一次通过(即权重调整)所需的浮点运算操作数。
硬件负担 ,或用于训练模型的硬件的计算能力,计算方法是处理器数乘以计算速度和时间。(研究人员承认,虽然这是一种不精确的计算方法,但在他们分析的论文中,这种方法的报道比其他基准要广泛得多。)
合著者报告说,除了从英语到德语的机器翻译之外,所有基准测试都有“高度统计学意义”的斜率和“强大的解释能力”,在这种情况下,使用的计算能力几乎没有变化。特别是对象检测、命名实体识别和机器翻译显示出硬件负担的大幅增加,而结果的改善相对较小,在流行的开源 ImageNet 基准测试中,计算能力解释了图像分类正确率的 43% 的差异。
研究人员估计,三年的算法改进相当于计算能力的 10 倍增长。他们写道:“总体而言,我们的研究结果清楚地表明,纵观深度学习的许多领域,训练模型的进步依赖于计算能力的大幅提高。另一种可能性是,要想在算法上有所改进,可能本身就需要在计算能力上进行互补性的提高。”
在研究过程中,研究人员还对这些预测进行了推断,以了解达到理论基准所需的计算能力,以及相关的经济和环境成本。即使是最乐观的计算,在 ImageNet 上降低图像分类错误率也需要 105 次以上的计算。
就他们的观点而言,一份 同步报告估计,华盛顿大学的 Grover 假新闻检测模型在大约两周内训练成本为 2.5 万美元。据报道,OpenAI 花了 1200 万美元来训练 GPT-3语言模型,而 Google 花费了大约 6912 美元来训练 BERT,这是一种双向 Transformer 模型,重新定义了 11 种自然语言处理任务的最新水平。
在去年 6 月的另一份报告中,马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst)的研究人员得出结论,训练和搜索某种模型所需的能源涉及大约 62.6 万磅的二氧化碳排放量。这几乎相当于全美国汽车平均寿命排放量的 5 倍。
“我们没有预料到,目标所隐含的计算要求…… 硬件、环境和财务成本会高得令人望而却步。”研究人员写道,“以一种经济的方式实现这一目标,需要更高效的硬件、更高效的算法,或其他改进,以使净效果就是如此巨大的收益。”
研究人员指出,在算法层面上进行深度学习的改进是有历史先例的。他们指出,像 Google 的张量处理单元(TPU)、现场可编程逻辑门阵列(FPGA)和专用集成电路(ASIC)这样的硬件加速器,以及通过网络压缩和加速技术来降低计算复杂性的尝试。他们还引用了神经架构搜索和元学习,它们使用优化来找到在一类问题上保持良好性能的架构,作为提高计算效率方法的途径。
事实上,OpenAI 的一项 研究表明,自 2012 年以来,人工智能模型在 ImageNet 中进行图像分类所需的计算量每 16 个月就会减少 2 倍。Google 的 Transformer架构超越了之前最先进的模型——seq2seq,也是由 Google 开发的,在推出 seq2seq 推出三年后,计算量减少了 61 倍。而 DeepMind 的 AlphaZero,是一个从零开始自学如何掌握国际象棋、将棋和围棋的系统。在一年后,比它的前身 AlphaGoZero 的改进版本减少了 8 倍的计算量。
“用于深度学习模型的计算能力的爆炸式增长结束了人工智能冬天,并为各种任务的计算机性能设定了新的基准。然而,深度学习对计算能力的巨大需求,也限制了它在当前形势下提高性能的程度,尤其是在硬件性能改进速度正在放缓的时代。”研究人员写道,“这些计算限制的可能影响是迫使机器学习朝着比深度学习更高效的技术方向发展。”
作者介绍:
Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。
原文链接:
评论