写点什么

2021 , NLP 大事记

  • 2022-01-12
  • 本文字数:3553 字

    阅读完需:约 12 分钟

2021 , NLP大事记

2021 刚刚过去,该盘点一下自然语言处理领域这一年来的高光时刻了</preface>


在过去的一年里,自然语言处理(NLP)领域发生了很多事情,本文将从作者的视角出发盘点一下一年来的行业亮点。

太长不看版


读者很忙的话可以先看下面这一段:


  • 如果你只打算阅读一篇今年发表的关于 NLP 的文章,那就读这一篇:The Chatbot Problem ,纽约客发文。

  • 如果你只打算读一篇今年发表的论文,我强烈推荐《论随机鹦鹉的危险:语言模型会大过头吗

  • 如果你只想花时间学习一门课程来了解最前沿的 NLP 技术,请学习 Hugging Face 的课程(免费!)

  • 如果你只想看一个关于 NLP 的视频,谷歌的这个LaMDA演示 是非常令人印象深刻的。

一月

我们先来看个有趣的东西:《果蝇可以学习词嵌入吗?》本文研究了生物学和神经网络之间的关系。虽然当下的这一代深度学习方法会从生物学中汲取高层灵感,但前者不一定符合生物学的理论。这就提出了一个问题,即生物系统是否可以进一步为新生网络架构和学习算法的开发提供灵感,从而显著提升机器学习任务的性能表现,或提供对智能行为的更多见解。


为此,研究人员使用了一个模拟的果蝇大脑,这是神经科学中研究最深入的网络之一。而且令人惊讶的是,事实上他们能够证明这个网络确实可以学习单词与其上下文之间的相关性,并生成高质量的词嵌入。

二月

要跟踪自然语言生成(NLG)的进展状况不是一件容易的事情,因为就其本质而言,NLG 任务没有正确与否的固定定义。为了克服这一挑战并跟踪 NLG 模型的进展,一个由来自 44 家机构的 55 名研究人员组成的全球项目提出了GEM(生成、评估和度量),这是一个以评估为重点的 NLG 动态基准环境。


GEM 项目的最终目标是实现对数据和模型的深入分析,而不是只靠单一的排行榜分数定高下。该项目通过跨越许多 NLG 任务和语言的 13 个数据集来度量 NLG 进展状况,希望它也可以为未来分别使用自动化和人工指标生成的文本提供评估标准。


研究人员已经向 NLG 研究社区开放了该项目,高级成员可以帮助新人做出贡献。GEM 基准测试放在 gem-benchmark.com 上,更多信息也可以在 Hugging Face 上的Dataset Hub 找到。

三月

免责声明:我为 AWS 工作,所以接下来这个主题我 100%会有偏见,但老实说我认为它非常酷:)


Hugging Face 和 AWS 之间的合作关系 从根本上改变了我的工作。我敢肯定,本文的读者肯定都很熟悉 Hugging Face。今年 3 月宣布的这一合作伙伴关系引入了新的 Hugging Face 深度学习容器(DLC),让人们可以更轻松地在 Amazon SageMaker 中训练和部署 Hugging Face Transformer 模型。


Philipp Schmid 提供的这个令人惊叹的 Github存储库可让你试用所有新功能,从分布式训练到模型部署和自动缩放等等。

四月

剑桥大学化学系和物理系于 4 月发表了一篇非凡的论文,其中描述了他们如何训练不同类型的语言模型。


研究人员使用序列嵌入(一种著名的 NLP 技术)将蛋白质序列转换为 200 维嵌入向量。可能你会有点疑惑,但 200 维确实被认为是这种复杂信息的低维表示!这项技术使团队能够训练一种新的语言模型,其性能优于使用公开可用数据集预测蛋白质液液相分离(LLPS)的几种现有机器学习方法。


我不会假装我很了解什么是 LLPS,但根据我的理解,它们是理解蛋白质分子语法和发现潜在错误的基础。这可能是癌症和神经退行性疾病(如阿尔茨海默病、帕金森病和亨廷顿病)研究取得突破的第一步。

五月

我很确定你曾在某个时候尝试过与你的某位智能家居助理做某种程度的对话。反正我是试过,而且对话从来没能持续多久。交谈一两次后,助理一般就没法把对话再延伸下去了,而且这种尝试通常会以令人沮丧的“我不确定我是否理解你刚才说的话”而告终。


在今年 5 月的谷歌 I/O 大会上,该公司宣布了其在对话式 AI 领域的最新进展,LaMDA(对话应用语言模型。它是一种会话语言模型,似乎能够进行更长时间的对话。他们在演示里与冥王星和纸飞机交谈,当然令人印象深刻。我们还要感谢他们告诉大家该模型仍处于早期阶段,并指出了它的一些局限性。我非常希望谷歌在某个时候发布一个可以试玩的版本。

六月

如果你喜欢弱小的新手对抗强大权威的故事,那么这个可能很适合你:


这是 Connor Leahy 和 Leo Gao 之间的交流,后者创立了 EleutherAI,一个由志愿者研究人员、工程师和开发人员组成的去中心化草根集体,专注于 AI 对齐、扩展和开源 AI 研究。他们成立于 2020 年 7 月,其旗舰项目是 GPT-Neo 系列模型,旨在复制 OpenAI 开发的 GPT-3 模型。他们的 Discord服务器是开放的,欢迎贡献者。


6 月,他们发布了最新模型 GPT-J,有 60 亿个参数,而 GPT-3 有 1750 亿个。尽管体积小得多,但 GPT-J 在诸如编写代码之类的专业任务中表现优于它的庞大表亲。


我发现这种趋势非常令人鼓舞,并且很期待看到 EleutherAI 的下一步发展。

七月

7 月,纽约客发表了一篇关于语言模型偏见的文章。这在 NLP 社区中并不是一个新话题。然而,像纽约客这样的杂志会讨论这样的话题,凸显了现代 NLP 模型的重要性和它们引发的社会担忧。这让我想起了 2020 年卫报关于 GPT-3 的文章——这是小众话题被主流媒体注意到的经典时刻


纽约客的文章侧重于语言模型如何反映我们的语言并最终反映我们自己的喜好。尤其是这句话让我印象深刻:“我们被迫以技术问题的形式来面对人类的终极隐秘:我们对内心的黑暗知之甚少,我们对黑暗的控制力又是如此微弱。”

八月

下一个故事与纽约客的文章引起了类似的共鸣,因为 Margaret Mitchell 在八月加入了 Hugging Face。在 2021 年 2 月被解雇之前,Mitchell 是谷歌伦理 AI 研究员。她与他人合著了(以她的笔名 Shmargaret Shmitchel)一篇关于大型 NLP 模型相关成本和风险的论文


我们已经意识到了与追求更大的 LM 相关的各种成本和风险,包括:环境成本(主要来自那些无法从技术成果中受益的各方);财务成本,这反过来又设置了进入壁垒,限制了可以为该研究领域做出贡献的人群数量,以及可以从最先进的技术中受益的语言种类;机会成本,因为研究人员会将精力从需要较少资源的方向上抽走;如果人类将看似连贯的 LM 输出视为可以对所说内容负责的某个人或组织发表的言论,那么还会存在重大伤害的风险,包括成见、诋毁、助长极端主义意识形态和错误逮捕等。我很高兴看到 Mitchell 加入 Hugging Face,这是一家推动开源机器学习和繁荣社区的公司。如果你想更多地了解她在 Hugging Face 的工作,请查看她的视频,了解在开发机器学习项目时要牢记的价值观。

九月

说到开源 NLP,Explosion 也度过了美好的一年。这是spaCy背后的公司,它是最受欢迎的 NLP 库之一。9 月,他们通过 1.2 亿美元的估值在 A 轮融资中筹集了 600 万美元。


我不得不承认,我在 2021 年没有跟上 spaCy 的最新动态,因为我主要专注于在 Transformers 库中提升自己的技能。所以,我很惊讶地看到 spaCy 今年早些时候发布的 spaCy 3.0 包含了那么多新特性。我肯定会在 2022 年再次将注意力转向 spaCy。


Explosion 不仅提供了最流行的 NLP 库之一,还创建了Prodigy ,一种现代注释工具。这很重要,因为创建更好模型的一种潜在方法是首先创建更好的训练数据——这就是数据注释工具派上用场的地方。


看到一位女性(Ines Montani)成为一家人工智能公司的 CEO 也是很不错的趋势信号:)

十月

10 月举行了2021年NLP峰会。本次会议展示了众多 NLP 最佳实践、真实案例研究、在实践中应用深度学习和迁移学习的挑战——以及你今天可以使用的最新开源库、模型和转换器。


许多 NLP 圈内知名的演讲者在本次会议中上台发言,其中一些亮点有:


  • 我们为什么以及应该如何关心 NLP 伦理?

  • 科学文献的极致总结

  • 利用人工智能进行招聘以实现经济复苏你可以在他们的网站 上按需访问所有演讲。

十一月

Hugging Face 度过了相当不错的一年,我不得不再提一次。11 月,该公司发布了他们课程 的第二部分,帮助你快速开始使用最先进的 NLP 模型。本课程将带你踏上一段学习旅程,首先从高级 Pipeline API 开始,该 API 可让你通过两行代码利用 NLP 技术。然后它逐渐深入到 Transformers 堆栈中——在你意识到之前,你已经从头开始创建出自己的语言模型了。


第二部分于 11 月推出,一同发布的还有一系列讲座和讨论,你可以在此处找到它们

十二月


本文的最后一部分自然也提供了对 NLP 领域未来发展的展望。12 月,Louisa Xu 在福布斯发表了她关于自然语言黄金时代的文章。这是一篇很棒的文章,介绍了目前最有影响力的三家 NLP 公司。她的总结和观点写得很好,我这里就摘录一段她的原文:


每家能从语言中获得价值的公司都将从 NLP 中受益,NLP 是机器学习中最具变革潜力的分支。语言是我们几乎所有互动活动中的最小公约数,在过去三年中,我们从语言中获取价值的方式发生了巨大变化。NLP 的最新进展成果在提升业务绩效方面具有巨大潜力。它甚至有望为我们的在线互动带来信任和诚信。很多大型企业已率先加入,但真正的前景将体现在下一波 NLP 应用程序和工具中,这些应用程序和工具会将围绕人工智能的那些宣传从意识形态转变为现实成果。


原文链接:


https://towardsdatascience.com/a-2021-nlp-retrospective-b6f51e60026a

2022-01-12 11:195267
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.8 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

cookie、session,、token,还在傻傻分不清

华为云开发者联盟

前端 华为云 企业号 1 月 PK 榜

TiDB 事务与锁整理

TiDB 社区干货传送门

TiDB 底层架构 TiKV 底层架构

DM 数据旅程 02:分库分表悲观协调——02Lock -> Resolve Lock

TiDB 社区干货传送门

迁移

支付系统就该这么设计(万能通用),稳的一批!

Java全栈架构师

程序员 面试 支付系统 架构设计 架构师

大数据开发培训怎么来选择?

小谷哥

web前端开发培训怎么入门

小谷哥

软件测试/测试开发 | 相比 Selenium,Web 自动化测试框架 Playwright 有哪些强大的优势?

测试人

软件测试 测试框架 测试开发 playwright Web自动化测试

一步步实现React-Hooks核心原理

helloworld1024fd

JavaScript

DM 数据旅程 01:序言 + 第一次 start task

TiDB 社区干货传送门

迁移

Java中不可或缺的关键字「volatile」

小小怪下士

Java 程序员 volatile

写过vue自定义指令吗,原理是什么?.m

bb_xiaxia1998

Vue

从零到一手写迷你版Vue

helloworld1024fd

JavaScript

乐视每周工作四天半?我们也可以

不想敲代码

程序员 效率工具 协同办公

培训大数据技术怎么学

小谷哥

我在京东做研发 | 京东云算法科学家解析爆火的ChatGPT

京东科技开发者

AI 技术 算法 经验分享 ChatGPT

在vue的v-for中,key为什么不能用index?

bb_xiaxia1998

Vue

架构实战 - 模块 6 作业

mm

#架构实战营 电商微服务分析

阿里云办公安全产品专家高传贵:零信任,让全球办公安全更简单

云布道师

阿里云

【从零开始学爬虫】采集食品行业最新报价数据

前嗅大数据

数据采集 爬虫软件 爬虫案例 爬虫入门教程 爬虫分享

聚焦技术创新实力,时序数据库 TDengine 荣登中国技术先锋年度评选两大榜单

TDengine

数据库 tdengine 时序数据库

前端一面必会手写面试题(边面边更)

helloworld1024fd

JavaScript

DM 数据旅程 02:分库分表悲观协调——01准备过程

TiDB 社区干货传送门

迁移

DM 数据旅程 02:分库分表悲观协调——03reSync

TiDB 社区干货传送门

迁移

简单几种云成本优化方法讲解-行云管家

行云管家

云计算 云成本 云支出

社招前端二面必会手写面试题总结

helloworld1024fd

JavaScript

学习前端技术选择培训还是自学比较好?

小谷哥

2023前端二面必会vue面试题指南

bb_xiaxia1998

Vue

构建自组织团队,让敏捷管理更好地落地

敏捷开发

项目管理 敏捷开发 项目管理软件 自组织

学习java技术哪些方法比较靠谱

小谷哥

字节前端必会vue面试题集锦

bb_xiaxia1998

Vue

2023年新云南等级保护测评机构名录!

行云管家

等保 等级保护 等保测评机构

2021 , NLP大事记_AI&大模型_Heiko Hotz_InfoQ精选文章