写点什么

NLP 带来的“科幻感”超乎你的想象 | 京东 ACL2020 论文解读

  • 2020-05-09
  • 本文字数:2701 字

    阅读完需:约 9 分钟

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读

近些年,人工智能无疑是信息技术领域最热门的技术之一。人工智能战胜世界围棋冠军、人工智能战胜游戏高手、人工智能医生看病会诊……不断进步的科技正推动着人工智能从一个无法实现的幻想,不断突破人类的想象,完成一个又一个挑战。

AI 写科幻剧本?科幻小说都不敢写

2018 年,在全球科幻电影节( Sci-Fi London Film Festival)上的一项名为“48 小时内电影创作挑战”(SFL 48 Hour Film Challenge)的活动中,来自纽约的导演 Oscar Sharp 和他在纽约大学 AI 研究院的同事 Ross Goodwin 利用人工智能(这套人工智能称自己为 Benjamin)创作出了一个剧本,并在 48 小时内将这个剧本拍摄出来了。虽然电影只有短短 9 分钟,但这也是世界上第一部由 AI 创作并拍摄出来的电影,这在以前是科幻小说都不敢写的故事。在此之后,人工智能在电影业中不断得到更多落地应用。现在,使用机器编写剧本的想法正在受到如 Netflix、Hulu、好莱坞等世界级影视科技公司的青睐。


人工智能剧本创作的关键技术—自然语言生成

而在使用人工智能进行影视剧本创作中,NLP 领域的自然语言生成技术是其中的关键技术之一。


但自然语言生成技术的应用场景和研究意义远不止于影视剧本创作。在电商场景下,可用于营销内容生成以及面向复杂问题回答与人机交互的自动文本生成;融媒体场景下,结合文本与语音合成技术可应用于新闻自动播报、直播文字、多语言/跨语言自动文摘。


相关内容可点击查看:


➡️京东商城背后AI技术揭秘(一)——基于关键词自动生成摘要


➡️京东商城背后AI技术揭秘(二)——基于商品要素的多模态商品摘要

NLP 最高级别学术认可— ACL 论文收录

近日,ACL 2020 公布了今年大会的论文录用结果。ACL 会议是 NLP 领域级别最高的国际学术会议,致力于推动自然语言处理相关研究的发展和国际学术交流。


根据官方公布的数据,本届大会共收到 3429 篇投稿论文,投稿数量创下了所有 ACL 旗下会议新高。ACL  除了在国际 AI 学界具有顶级影响力外,其审稿规范和审稿质量,也是当今 AI 领域国际顶级会议中公认的翘楚,论文被录取的难度十分高。以 2019 ACL 为例,论文录取率仅为 22.7% 。因此,研究论文能够被 ACL 录用,不仅意味着研究成果得到了国际学术界的认可,也证明了研究本身在实验严谨性、思路创新性等方面的实力。


京东 AI 研究院专注于持续性的算法创新,80% 的研究都由京东实际的业务场景需求为驱动,聚焦 NLP 语音、计算机视觉、机器学习(包括深度学习和强化学习)等领域。在 ACL 2020 中,京东 AI 研究院提交的多篇论文经过重重审核,最终被大会收录。


今天,我们就将为大家解读其中的一篇:Self-Attention  Guided  Copy Mechanism for  Abstractive  Summarization


论文对现有自动文摘的研究方法进行了优化,使通过该新模型生成的摘要内容更加精确。

论文解读

摘要

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其目的是为输入文本生成一段简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘方法抽取输入文本中的原始句子组成摘要;生成式自动文摘方法利用自然语言生成技术生成摘要。


自动文摘模型的关键是准确识别出输入文本中的重要信息,并输出涵盖这些信息的流畅文本。抽取式自动文摘方法可以显式的对输入文本的每个句子的重要性进行建模,但是输出的摘要是通过拼接句子构成的,句间的流畅性无法得到保证。生成式自动文摘方法通常可以输出较为流畅的摘要,但是有时无法完全准确捕捉到输入文本中的重要的信息。


本文所介绍的是自动文摘模型提出了一种自注意力(Self-Attention)指导的复制机制,该方法融合了抽取式自动文摘方法和生成式自动文摘方法,在多个文本摘要数据集上取得了比对比模型更好的性能。


我们首先介绍一下一些相关背景知识,包括自注意力机制,复制机制和抽取式自动文摘方法 TextRank 算法。

算法及模型

《Attention is all you need》提出了基于自注意力机制的 Transformer 框架,在机器翻译任务上超过了当时其他的模型。简单来说,自注意力机制将文本中的词两两计算相似度,然后对这些相似度进行归一化得到权重矩阵,最后将这些权重和相应的词进行加权求和得到下层的隐层表达。


复制机制是自动文摘模型中的一个常用机制。传统的文本生成在计算生成每个词的概率时,所有的词被限制在一个固定大小的词表中,即生成的词必须来自于这个固定大小的词表。复制机制除了会在这个固定大小的词表中生成某个词,还会选择性的在输入文本中选择一个词,这个词不受词表限制。复制机制实际上和人类在做摘要时的逻辑相吻合,即输入文本中的某些词,尤其是那些关键词,组成了这个文本的主干。我们只需要将这些关键词从输入中“复制”到输出中,然后再做一个适当的加工,使输出的摘要更加自然。复制机制的动机就是自动识别出这些关键词,然后将其“复制”到输出摘要中。TextRank 算法一种基于图模型的经典抽取式自动文摘方法,其基本思想来源于谷歌的 PageRank 算法。TextRank 算法通常会把输入文本分割成若干基本单元并建立图模型, 利用基本单元间关系组成的邻接矩阵进行随机游走,获得各基本单元的入度中心度得分,基于该得分可以对文本基本单元进行排序。


回到主线,本文提出的模型是基于自注意力机制的 Transformer 模型,并融入了复制机制,即每个词的输出概率为生成概率和复制概率的加权相加:   



其中 



 为生成模式的权重



为生成概率


为复制概率,本文采用了编码器-解码器之间的注意力权重



  作为复制概率:  



其中



 是解码器时刻的隐层状态,



是编码器第个输入对应的隐层状态,



为隐层状态维度


上文提到,自动文摘模型希望通过复制机制将输入文本中的重要词复制到输出中,但由于使用注意力权重作为复制概率,并不能显式地识别出哪些词是重要的词。我们需要找到一个合适的方式显式地为输入文本中的词的重要性进行打分,进而指导模型的复制机制,改善复制的效果。TextRank 算法利用邻接矩阵计算输入文本中每个词的重要性得分。


我们注意到,Transformer 模型的自注意力机制提供了输入文本中的词两两之间的权重,该权重矩阵可以作为 TextRank 算法的邻接矩阵。基于这个邻接矩阵,通过随机游走,我们可以得到输入文本中的词的入度中心度得分,以此作为词的重要性得分



进而指导复制概率,公式如下:



此外,我们还尝试了利用出度中心度得分指导复制概率的方法。


进一步地,我们还将  加入到损失函数中,使重要的词得到模型足够的“重视”,即:


原始的损失函数为:



我们改进的损失函数为:


实验结果

我们提出的模型在文本摘要数据集 CNN/DailyMail 和 Gigaword 上取得了比对比模型更好的性能。


CNN/DailyMail数据集实验结果对比


Gigaword数据集实验结果对比


2020-05-09 07:003578

评论

发布
暂无评论
发现更多内容

面对“失业焦虑”我们可以尝试自媒体分享| 社区征文

浅羽技术

三周年征文

文盘Rust -- 用Tokio实现简易任务池

京东科技开发者

rust runtime tokio 企业号 4 月 PK 榜

爆肝一月!527页文档详解SpringCloud微服务和分布式系统实践

小小怪下士

Java 分布式 微服务 后端 SpringCloud

揭开“虚拟化已死”的5大谎言与真相

科技热闻

活久见,java8 lamdba Collectors.toMap()报NPE

总结一下Redis的缓存雪崩、缓存击穿、缓存穿透

后端开挂!一个接口实现CRUD操作,这款工具绝了!

Java你猿哥

Java 接口 后端 crud

【问题解决】解决 swagger2 默认地址失效

Java你猿哥

Java JAVA开发 swagger2 java项目

得帆云DeMDM,业内首家基于低代码技术构建的主数据管理平台

得帆信息

低代码 数据治理 数据清洗 主数据管理 主数据管理平台

太强了!阿里技术官新产"Spring高级源码阅读指南",爆火全网

Java你猿哥

Java spring SSM框架 spring ioc spring aoc

【4.7-4.14】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

华秋PCB生产工艺 | 第十二道主流程之FQC

华秋电子

如何在ABAP里用函数式编程思想打印出非波拉契Fibonacci(数列)

汪子熙

SAP abap Netweaver 思爱普 三周年连更

GitHub上疯传数万次!蚂蚁内部绝密分布式高可用算法笔记太香了

Java 分布式 高可用 算法

应用部署引起上游服务抖动问题分析及优化实践方案

京东科技开发者

应用部署 jsf 企业号 4 月 PK 榜 上游服务抖动

被裁后,狂刷大牛分享的607页JUC源码分析笔记,立马拿蚂蚁offer

Java 高并发 JUC JCF 集合框架

厚礼蟹!阿里最新SpringBoot核心笔记,一夜爆火于Github。

Java你猿哥

Java Spring Boot JAVA开发 SSM框架

从零学习SDK(6)调试和测试SDK的库

MobTech袤博科技

OpenHarmony社区运营报告(2023年3月)

OpenHarmony开发者

OpenHarmony

Java中的异常处理详解(try、catch、finally、throw、throws) | 社区征文

共饮一杯无

Java 异常处理 三周年连更

SLBR通过自校准的定位和背景细化来去除可见的水印

合合技术团队

人工智能 图像处理 水印消除

HummerRisk V1.0.0:架构全面升级,开启新篇章

HummerCloud

云原生安全

人人自媒体的时代,程序员该如何利用好自己的优势?我记住了这些神器...

浅羽技术

工具 自媒体 写作技巧 三周年连更

业内首份!医疗数据安全政策汇编发布(附下载)

极盾科技

数据安全

300+页!卷王级别Java面试宝典-阿里服务端开发与面试知识手册!

Java你猿哥

Java spring JVM 面经 SSM框架

华为19级大佬10年心血终成百页负载均衡高并发网关设计实战文档

Java 负载均衡 高并发 网关设计

高可靠多层板制造服务再获认可!华秋荣获创想三维优秀质量奖

华秋电子

BAT必刷!GitHub顶级“2023并发编程全优笔记”晋升公司架构组!

Java你猿哥

Java 多线程 面经 SSM框架 多线程并发

SpringBoot 集成 atomikos 实现分布式事务

EMQX Cloud BYOC版本发布:在您的云上体验全托管的MQTT消息服务

EMQ映云科技

物联网 IoT 云服务 mqtt 企业号 4 月 PK 榜

阿里P8架构师爆肝分享内部开源的JVM垃圾回收PDF文档,共23.3W字

Java JVM 垃圾回收

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读_AI&大模型_京东AI研究院_InfoQ精选文章