产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于 9 个 GPT-3

  • 2021-01-22
  • 本文字数:2321 字

    阅读完需:约 8 分钟

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于9个GPT-3

参数是机器学习算法的关键。它们是模型的一部分,是从历史的训练数据中学到的。一般而言,在语言领域中,参数的数量和复杂度之间的相关性保持得非常好。举例来说,OpenAI 的 GPT-3,是有史以来训练过的最大的语言模型之一,就拥有 1750 亿个参数,它能够进行原始类比、生成食谱,甚至完成基本代码。


谷歌的研究人员开发出了一种基准测试方法,认为它能让他们训练出一个包含超过一万亿个参数的语言模型,这可能是迄今为止对这种相关性最全面的测试方法之一。他们表示,他们的 1.6 万亿参数模型,看起来是目前规模最大的,其速度比之前谷歌开发的最大语言模型(T5-XXL)提高了 4 倍。


正如研究人员在一篇详细介绍他们研究成果的论文中所指出的,大规模训练是获得强大模型的有效途径。在大数据集和参数数量的支持下,简单的架构超越了复杂的算法。但是,高效的大规模训练和密集的计算是关键。


正因为如此,研究人员才会追求所谓的 SwitchTransformer ——一种“稀疏激活”技术,即仅使用模型的权值子集,或仅转换模型中输入数据的参数。


Switch Transformer 建立在专家混合的基础上,这是 90 年代初首次提出的人工智能模型范式。大致的概念是,在一个更大的模型中保留多个专家,或者说是专门处理不同任务的模型,并且有一个“门控网络”为任何给定数据选择咨询哪些专家。


Switch Transformer 的新颖之处在于,它有效地利用了为密集矩阵乘法(广泛用于语言模型的数学运算)设计的硬件,如 GPU 和谷歌的张量处理单元(TPU)。


对于研究者来说,在分布式训练设置中,他们的模型会在不同的设备上拆分唯一的权重,这样权重就会随着设备数量的增加而增加,但是仍然可以管理每台设备的内存和计算轨迹。


其中一项实验,研究人员使用 32 个 TPU 内核对 Colossal Clean Crawled Corpus 预先训练出几种不同的 Switch Transformer 模型, Colossal Clean Crawled Corpus 是一组大小为 750 GB 的文本数据集,它们来自 Reddit、维基百科和其他网络资源。


研究人员为这些模型安排了任务,让它们预测那些 15% 的单词被掩蔽的段落中缺失的单词,以及其他一些挑战,例如通过检索文本来回答一系列日益困难的问题。


图片: https://uploader.shimo.im/f/cVuRzapGE2oAZNYS.png


研究人员声称,他们的 1.6 万亿参数模型(Switch-C),拥有 2048 名专家,显示出“完全没有训练不稳定性”,而更小的模型(Switch-XXL)包含 3950 亿个参数和 64 名专家。


但是,在一次基准测试中,Sanford Question Answering Dataset(SQuAD)的 Switch-C 的得分更低,只有 87.7;而 Switch-XXL 的得分为 89.6。研究人员将其归因于微调质量、计算要求和参数数量之间的关系不透明。


Switch Transformer 在这种情况下可以获得一些下游任务的收益。举例来说,据研究人员称,它在使用同样数量的计算资源的情况下,可以达到 7 倍以上的预训练速度,研究人员表示,可以用大的稀疏模型来创建更小的密集模型,对任务进行微调后,其质量可提高 30%。


其中一个测试是,Switch Transformer 模型被训练为在 100 多种不同的语言之间进行翻译,研究人员观察到 101 种语言“总体上都有提高”,91% 的语言的翻译速度是基准模型的 4 倍以上。


“尽管这项工作主要集中于极其庞大的模型,但是我们也发现,只需两个专家模型就可以提高性能,同时还可以在普通 GPU 或 TPU 的内存限制下轻松地进行拟合。”研究人员在论文中写道。“我们不能完全保持模型的质量,但是把稀疏的模型提炼成密集模型,可以达到 10 到 100 倍的压缩率,同时专家模型的质量提高约 30%。”


在未来的工作中,研究人员计划将 Switch Transformer 应用到“新的、跨不同模式”,包括图像和文本。他们认为,稀疏的模型可能会给不同媒体和多模态模型带来好处。


不幸的是,研究人员的工作没有考虑到这些大型语言模型在现实世界中的影响。语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。


OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在“terrorism”旁边。其他研究,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员在去年 4 月份发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的 BERT 和 XLNet、OpenAI 的 GPT-2 和 Facebook 的 RoBERTa。


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


供参考 @mmitchell_ai 和我发现,九月份谷歌召开了一次关于 LLM 的会议,但是我们团队没有人被邀请或者知道这次会议。所以当他们决定在自己的 “操场”中做什么后,他们只希望人工智能的道德规范变成橡皮图章。https://t.co/tlT0tj1sTt— Timnit Gebru (@timnitGebru)2021 年 1 月 13 日


谷歌发布的机器学习研究的政策是否会在其中起到作用尚不清楚。去年年底,路透社报道说,该公司的研究人员在进行面部和情绪分析以及种族、性别或政治派别分类之前,现在需要咨询法律、政策和公关团队。


去年 12 月初,谷歌解雇了人工智能伦理学家 Timnit Gebru,据说部分原因是因为她的一篇关于大型语言模型的研究论文,其中讨论了这些模型的风险,包括其碳足迹对边缘群体的影响,以及持续存在的针对特定人群的性虐待语言、仇恨言论、微攻击、刻板印象和其他非人道主义语言的趋势。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

2021-01-22 14:362797
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 533.8 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

阿里开源:历年亿级活动高并发系统设计场景总结

Java架构师迁哥

GitHub上标星75k+超牛的《Java面试突击版》,分享PDF离线版

Java 程序员 架构 面试

Alibaba面试官:“这该死的程序员,技术竟如此深厚!”

Java架构之路

Java 程序员 架构 面试 编程语言

C++ 协程的近况、设计与实现中的细节和决策

Linux服务器开发

c++ 线程 后端 协程 Linux服务器开发

国家工业信息安全发展研究中心与华为联合发布《数据安全白皮书》

DT极客

微服务注册中心:Consul——服务注册

程序员架构进阶

微服务 Consul API网关 28天写作 5月日更

关于echarts使用geo制作地图tooltip不显示问题

孤独的西北疯

备战 60 天,成功上岸滴滴后,我特地把金三银四备战资源库整理出来了

Java 程序员 架构 面试

CompletableFuture 简单与链式的区别?

码农架构

人生算法:做好自己这家公司的CEO

石云升

读书笔记 思维模型 5月日更

学到了,用138个案例讲明白了Spring全家桶+Docker+MQ

Java架构师迁哥

CCF C³-04@百度丨“AI+开源”的昨天今天和明天

百度大脑

百度 AI

爱了! Alibaba技术官甩出的“阿里内部Java成长笔记”,技术人成长的标杆!

Java架构之路

Java 程序员 架构 面试 编程语言

一个月吃透这份阿里高级专家的《Java500道面试手册》成功拿下了腾讯offer!

Java架构之路

Java 程序员 架构 面试 编程语言

阿里P7简历上都有哪些可以拿得出手的项目?

Java架构师迁哥

一周信创舆情观察(5.17~5.23)

统小信uos

GitHub连夜封杀!这份阿里 10W 字内部 Java 字面试手册到底有多强?

Java 程序员 架构 面试

外包CRUD3年,被导师一句话点醒,直接涨薪9K(Java岗)

Java架构师迁哥

高德地图只显示一个省的地图

孤独的西北疯

Spring Boot Devtools Restarter 原理

sN0wpeak

Java spring

区块链如何赋能企业数字化转型?

CECBC

DWF低代码开发技术及其在数字化运营和运维平台建设中的应用

云智慧AIOps社区

低代码 智能运维

吐血总结 | Java并发编程 72 变

Java架构师迁哥

助力秋招第三弹:Java集合框架体系详细梳理

北游学Java

Java 面试 框架 秋招

阿里人是如何设计系统抵挡亿级流量冲击的?(全彩版小册开源)

Java架构师迁哥

中国数字人民币官方宣传片来袭!DCEP:开启“无现金新时代”!

CECBC

Dubbo 服务治理简介

青年IT男

dubbo

大厂面试内幕:阿里内部整理出的5000页Java面试复盘指南,起飞

Java架构追梦

Java 架构 面试

ThingJS粒子特效一键实现雨雪效果

ThingJS数字孪生引擎

可视化 场景应用 3D可视化 数字孪生

扫盲篇-什么是分布式任务调度

敏捷调度TASKCTL

大数据 分布式 分布式锁 分布式任务调度 zookeeper分布式锁

发布引发的curator报错:instance must be started before calling this method

林一

dubbo zk 优雅停机

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于9个GPT-3_AI&大模型_KYLE WIGGERS_InfoQ精选文章