速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

NLP 带来的“科幻感”超乎你的想象 | 京东 ACL2020 论文解读

  • 2020-05-09
  • 本文字数:2701 字

    阅读完需:约 9 分钟

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读

近些年,人工智能无疑是信息技术领域最热门的技术之一。人工智能战胜世界围棋冠军、人工智能战胜游戏高手、人工智能医生看病会诊……不断进步的科技正推动着人工智能从一个无法实现的幻想,不断突破人类的想象,完成一个又一个挑战。

AI 写科幻剧本?科幻小说都不敢写

2018 年,在全球科幻电影节( Sci-Fi London Film Festival)上的一项名为“48 小时内电影创作挑战”(SFL 48 Hour Film Challenge)的活动中,来自纽约的导演 Oscar Sharp 和他在纽约大学 AI 研究院的同事 Ross Goodwin 利用人工智能(这套人工智能称自己为 Benjamin)创作出了一个剧本,并在 48 小时内将这个剧本拍摄出来了。虽然电影只有短短 9 分钟,但这也是世界上第一部由 AI 创作并拍摄出来的电影,这在以前是科幻小说都不敢写的故事。在此之后,人工智能在电影业中不断得到更多落地应用。现在,使用机器编写剧本的想法正在受到如 Netflix、Hulu、好莱坞等世界级影视科技公司的青睐。


人工智能剧本创作的关键技术—自然语言生成

而在使用人工智能进行影视剧本创作中,NLP 领域的自然语言生成技术是其中的关键技术之一。


但自然语言生成技术的应用场景和研究意义远不止于影视剧本创作。在电商场景下,可用于营销内容生成以及面向复杂问题回答与人机交互的自动文本生成;融媒体场景下,结合文本与语音合成技术可应用于新闻自动播报、直播文字、多语言/跨语言自动文摘。


相关内容可点击查看:


➡️京东商城背后AI技术揭秘(一)——基于关键词自动生成摘要


➡️京东商城背后AI技术揭秘(二)——基于商品要素的多模态商品摘要

NLP 最高级别学术认可— ACL 论文收录

近日,ACL 2020 公布了今年大会的论文录用结果。ACL 会议是 NLP 领域级别最高的国际学术会议,致力于推动自然语言处理相关研究的发展和国际学术交流。


根据官方公布的数据,本届大会共收到 3429 篇投稿论文,投稿数量创下了所有 ACL 旗下会议新高。ACL  除了在国际 AI 学界具有顶级影响力外,其审稿规范和审稿质量,也是当今 AI 领域国际顶级会议中公认的翘楚,论文被录取的难度十分高。以 2019 ACL 为例,论文录取率仅为 22.7% 。因此,研究论文能够被 ACL 录用,不仅意味着研究成果得到了国际学术界的认可,也证明了研究本身在实验严谨性、思路创新性等方面的实力。


京东 AI 研究院专注于持续性的算法创新,80% 的研究都由京东实际的业务场景需求为驱动,聚焦 NLP 语音、计算机视觉、机器学习(包括深度学习和强化学习)等领域。在 ACL 2020 中,京东 AI 研究院提交的多篇论文经过重重审核,最终被大会收录。


今天,我们就将为大家解读其中的一篇:Self-Attention  Guided  Copy Mechanism for  Abstractive  Summarization


论文对现有自动文摘的研究方法进行了优化,使通过该新模型生成的摘要内容更加精确。

论文解读

摘要

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其目的是为输入文本生成一段简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘方法抽取输入文本中的原始句子组成摘要;生成式自动文摘方法利用自然语言生成技术生成摘要。


自动文摘模型的关键是准确识别出输入文本中的重要信息,并输出涵盖这些信息的流畅文本。抽取式自动文摘方法可以显式的对输入文本的每个句子的重要性进行建模,但是输出的摘要是通过拼接句子构成的,句间的流畅性无法得到保证。生成式自动文摘方法通常可以输出较为流畅的摘要,但是有时无法完全准确捕捉到输入文本中的重要的信息。


本文所介绍的是自动文摘模型提出了一种自注意力(Self-Attention)指导的复制机制,该方法融合了抽取式自动文摘方法和生成式自动文摘方法,在多个文本摘要数据集上取得了比对比模型更好的性能。


我们首先介绍一下一些相关背景知识,包括自注意力机制,复制机制和抽取式自动文摘方法 TextRank 算法。

算法及模型

《Attention is all you need》提出了基于自注意力机制的 Transformer 框架,在机器翻译任务上超过了当时其他的模型。简单来说,自注意力机制将文本中的词两两计算相似度,然后对这些相似度进行归一化得到权重矩阵,最后将这些权重和相应的词进行加权求和得到下层的隐层表达。


复制机制是自动文摘模型中的一个常用机制。传统的文本生成在计算生成每个词的概率时,所有的词被限制在一个固定大小的词表中,即生成的词必须来自于这个固定大小的词表。复制机制除了会在这个固定大小的词表中生成某个词,还会选择性的在输入文本中选择一个词,这个词不受词表限制。复制机制实际上和人类在做摘要时的逻辑相吻合,即输入文本中的某些词,尤其是那些关键词,组成了这个文本的主干。我们只需要将这些关键词从输入中“复制”到输出中,然后再做一个适当的加工,使输出的摘要更加自然。复制机制的动机就是自动识别出这些关键词,然后将其“复制”到输出摘要中。TextRank 算法一种基于图模型的经典抽取式自动文摘方法,其基本思想来源于谷歌的 PageRank 算法。TextRank 算法通常会把输入文本分割成若干基本单元并建立图模型, 利用基本单元间关系组成的邻接矩阵进行随机游走,获得各基本单元的入度中心度得分,基于该得分可以对文本基本单元进行排序。


回到主线,本文提出的模型是基于自注意力机制的 Transformer 模型,并融入了复制机制,即每个词的输出概率为生成概率和复制概率的加权相加:   



其中 



 为生成模式的权重



为生成概率


为复制概率,本文采用了编码器-解码器之间的注意力权重



  作为复制概率:  



其中



 是解码器时刻的隐层状态,



是编码器第个输入对应的隐层状态,



为隐层状态维度


上文提到,自动文摘模型希望通过复制机制将输入文本中的重要词复制到输出中,但由于使用注意力权重作为复制概率,并不能显式地识别出哪些词是重要的词。我们需要找到一个合适的方式显式地为输入文本中的词的重要性进行打分,进而指导模型的复制机制,改善复制的效果。TextRank 算法利用邻接矩阵计算输入文本中每个词的重要性得分。


我们注意到,Transformer 模型的自注意力机制提供了输入文本中的词两两之间的权重,该权重矩阵可以作为 TextRank 算法的邻接矩阵。基于这个邻接矩阵,通过随机游走,我们可以得到输入文本中的词的入度中心度得分,以此作为词的重要性得分



进而指导复制概率,公式如下:



此外,我们还尝试了利用出度中心度得分指导复制概率的方法。


进一步地,我们还将  加入到损失函数中,使重要的词得到模型足够的“重视”,即:


原始的损失函数为:



我们改进的损失函数为:


实验结果

我们提出的模型在文本摘要数据集 CNN/DailyMail 和 Gigaword 上取得了比对比模型更好的性能。


CNN/DailyMail数据集实验结果对比


Gigaword数据集实验结果对比


2020-05-09 07:003303

评论

发布
暂无评论
发现更多内容

高成长、高潜力,火线安全入选2021中国新锐技术先锋企业20强!

火线安全

知识中台,驱动产业智能化升级

百度大脑

人工智能

建议收藏 | SpringBoot 元数据配置原来可以这么玩!

码农架构

spring springboot SpringBoot 2 java 编程 1月月更

前端开发之VUE基础面试题分享

@零度

Vue 前端开发

理清逻辑,确保云原生时代应用开发的全生命周期安全

华为云开发者联盟

网络安全 安全 应用开发 安全防守

使用Amazon CDK部署基于Amazon Fargate的高可用、易扩展的Airflow集群

亚马逊云科技 (Amazon Web Services)

计算

4种高速安全混合云解决方案,助力您的云迁移之旅!

亚马逊云科技 (Amazon Web Services)

计算

全面容器化之后,来电科技如何实现微服务治理?

阿里巴巴云原生

阿里云 微服务 云原生 实践

技术解析 | 即构移动端超分辨率技术

ZEGO即构

计算机视觉 音视频 视频超分

开源数据库TDSQL PG版再升级:分区表性能提升超10倍

腾讯云数据库

tdsql 国产数据库

大数据开发之Hadoop高频面试题

@零度

大数据 hadoop

云原生+国产化,腾讯云数据库不做选择题

腾讯云数据库

tdsql 国产数据库

【Redis集群原理专题】分析一下相关的Redis服务分片技术和Hash Tag

洛神灬殇

redis redis cluster redis架构 1月月更

Tomcat系统架构分析-Service

编程江湖

tomcat

在线正则表达式可视化测试工具

入门小站

工具

针对jQuery的优化方法有哪些

编程江湖

jquery

隐喻回顾会

Bruce Talk

敏捷 Agile 回顾会 Coach/Facilitate

无服务器应用DevOps最新实践(内附完整演讲+视频)

亚马逊云科技 (Amazon Web Services)

计算

使用CRM系统改善客户关系的方法

低代码小观

企业管理 CRM ERP CRM系统 企业管理工具

🍃【Spring专题】「技术原理」为大家介绍一下Spring中的Ant路径匹配工具组件AntPathMatcher

洛神灬殇

spring 1月月更 SpringFramework AntPathMatcher

企业聊天APP-有什么作用,可以带来哪些便利?WorkPlus即时通讯

WorkPlus

TDengine在蓝深远望电机物联网监测预警与预测性维护平台中的应用

TDengine

数据库 大数据 tdengine 物联网

增效降本开源节流,2022年技术趋势前瞻(异步编程/容器技术)

刘悦的技术博客

容器 性能 异步IO 异步削峰 成本优化

Linux之du命令

入门小站

Linux

趋势:2022 年 AI 五大预测

WorkPlus

拍乐云首发音视频「分组讨论」开放能力,开启线上群聊互动新玩法

拍乐云Pano

音视频 RTC 视频会议 泛娱乐 分组讨论

选择“难而正确”的道路,国内VPN距离突破瓶颈还有多远?

科技热闻

Mybatis如何执行批量操作

编程江湖

mybatis

腾讯云TDSQL在PostgreSQL领域的‘‘再次突破’’

腾讯云数据库

tdsql 国产数据库

实现分区表性能提升超10倍,解密TDSQL PG版开源升级特性

腾讯云数据库

tdsql 国产数据库

青藤成功举办“ATT&CK应用发展论坛”,并发布《ATT&CK框架实践指南》

青藤云安全

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读_AI&大模型_京东AI研究院_InfoQ精选文章