在蒙特利尔的 NeurIPS 2018 会议上,来自密歇根大学和谷歌大脑的论文:《Content preserving text generation with attribute controls》(内容保留文本生成与属性控制),提出了一种新的机器学习架构,该架构可以从给定样本生成句子,并且在不改变句子原意的基础上增加表达情绪的文字,甚至可以添加拟声词。
据介绍,这一技术未来可以用在转述、机器翻译、会议记录等系统中,同时该技术还进一步补充了 11 月份微软所展示的利用 NLP 技术对弱结构化文本中的关系进行处理的系统。
阅读详细论文可以从以下入口进入:
密歇根大学与谷歌大脑《内容保留文本生成与属性控制》:
https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf
微软研究院《结构化神经概述》:
研究人员在论文中写道:
我们解决了修改句子文本属性的问题,据我们了解,我们演示的是第一个在没有并行数据的情况下学习并修改给定句子多个文本属性的实例。
文本示例:尝试改变句子的情绪
研究团队首先解决了情绪控制的问题。他们从一个餐馆评论数据集(Yelp 评论数据集的过滤版本)和一个 IMDB 电影评论的大集合中分别获取了 44.7 万句和 30 万句的评论,并利用这些评论来训练系统。
在训练结束后,研究人员利用一个包含 12.8 万个餐馆评论和 3.6 万个电影评论的测试数据集,试图基于带有负面情绪的句子生成带有正面情绪的文本片段,反之亦然。
之后,研究人员在 BLEU(“双语评估替补”的缩写)上进行评估,人工智能系统能够超越两种领先的文本生成方法。BLEU 是评估机器翻译文本的度量标准。此外,它始终能生成与输入句子相关的语法正确的句子——以至于亚马逊的 Mechanical Turk 上的研究参与者认为它的输出比以前的方法更现实。
研究人员表示,生成的句子出人意料地连贯。例如,“柜台后面的人一点也不友好”变成了“柜台后面的人非常友好,乐于助人”(上图示例中的第一个案例)。在另一个例子中,这个模型反过来说,“这是这部电影的另一个有趣的方面”,“这部电影没有可取之处”(上图示例中第三个案例)。
更令人印象深刻的是,在另一项测试中,研究人员使用该系统同时控制句子的多个属性——包括情绪、时态、声音等。在对来自多伦多图书语料库的 200 万段文本片段数据集进行训练后,该模型能够将句子从指示性语气:“John will not survive in the camp”翻译成条件时态的虚拟语气:“John couldn 't live in the camp”。
文本示例:改变句子的多个属性
研究人员表示:“我们已经证明,我们的模型通过各种实验和指标有效地反映了条件信息,虽然之前的工作集中在控制单个属性和改变句子情绪,但是我们所提出的模型很容易扩展到多个属性场景。在这个框架中考虑具有连续值的属性,以及更大的语义和语法属性集将是未来一项有趣的工作。”
原文链接:
评论 1 条评论