本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。
本期 Robin.ly 专访特邀加州大学戴维斯分校计算机科学系助理教授俞舟博士。俞舟博士主要研究方向包括自然语言处理,多模态传感分析以及人机交互机器学习技术。她所带领的学生团队赢得了 2018 年的 Alexa Prize,该竞赛旨在鼓励高校学生打造顶级聊天机器人,以推进会话式人工智能技术的发展。同年,俞舟博士入选了 2018 年度福布斯“30 Under 30”科学家名单。
俞舟博士在硅谷接受 Robin.ly 专访,分享她在自然语言处理领域(NLP)的研究经历与最新研究成果,以及 2018 年率队夺得 Alexa Prize 的经历与感悟。
1. 从学生到教授
Wenli:我看过您之前的一些采访。您说当初在申请 CMU 的博士项目时,凭借计算机科学和语言学的双学位在一众申请人中脱颖而出。语言学是一门很有意思的学科,能够帮助我们了解人类的思想和行为。我想知道语言学对您现在的工作有什么样的影响?**
Zhou Yu:
我的研究领域是自然语言处理,也有人称之为计算语言学,主要是通过将机器学习、统计方法和语言学知识相结合来解决与语言学影响相关的问题。比如通过建立更好的语言系统来解决自然语言理解、生成以及对话设计之类的实际问题。我们想要了解人们交谈时的对话结构。利用这个结构训练的对话系统可以更好的理解对话流,并针对不同的个体提供个性化的答复。为了使系统更加智能化,还要了解人们对话中所表达的语义和句法。例如,用户是在问我一个问题还是在给我一个意见?这些都是跟语义密切相关的信息。
俞舟博士入选 2018 年度福布斯“30 Under 30”的科学家名单 (来源:Forbes)
Wenli: 您提到了对整个社会 NLP 的需求与日俱增,业界正在使用聊天机器人进行无监督学习。有一些研究表明,到 2020 年,聊天机器人将为工业界节省高达 80 亿美元的费用。我们知道您的研究领域正在越来越多的受到工业界的关注,这些公司对您的研究有什么影响?您觉得学术界的研究和大公司自己的实验室研究有什么差别?
Zhou Yu:
工业界研究和学术界研究之间肯定存在,也应该存在差异。我认为学术界是一个选择研究方向最自由的地方。我也一直在跟不同公司的人交流,了解他们在算法,模型或数据方面的需求,以帮助他们建立可以覆盖数百万人的优化模型。而他们在资金和资源方面为我们提供了巨大的支持,让我们得以在有前景的方向上继续钻研。我们希望可以做更多具有前瞻性的基础研究,创建更加标准化的平台,生成更好的数据和评估指标,帮助公司实现具体的应用和宏伟的发展目标。
Wenli: 我们再说说教学。我知道您担任助理教授已经近两年了,那么您从研究生到教授经历了怎样的角色转换?您认为以前的教授对您的教学风格有什么影响?
Zhou Yu:
以前的导师和其他资深教员让我认识到,教授的工作其实是创造一个支持协作和创新的良好环境,让所有学生都能从中受益,也能吸引其他优秀的学生加入我们,而学生们反过来也能维持或进一步改善这样的环境。我的工作除了促进这种良性循环,还要保证实验室有充足的研究基金,让学生们能够自由的选择自己感兴趣的方向;同时也要确保我们的工作能够被业界认可,让更多人从中受益。
2. 最新研究与观点
Wenli:最近,您的论文“无监督对话结构学习”(“Unsupervised DialogStructure Learning”)被 NAACL(北美计算语言学协会)收录了。这篇文章中涉及了哪些技术上的突破?在这之后还有什么最新进展吗?
Zhou Yu:
本文主要是关于使用一些无监督学习方法对递归神经网络所做的一些改变。我们的设想是在没有任何监督的情况下尝试从人和人的对话中自动学习对话结构,并利用这种结构来建立更好的对话系统。
目前的对话系统通常有两种类型的管道。一种我们通常称之为基于规则的对话系统,整个对话管理器由一个示意图触发,根据规则从一个对话状态转换到其他状态。另外一个被称为端到端可训练或基于统计的对话模块,也就是说你的对话模型在结构上是一种统计规则,包含各个状态之间的转换概率。我们的目标就是在对话中不存在任何标签的时候,让人们运行我们的算法。我们将会提供一个流程图,类似基于规则的系统,并在其中提供所有状态相互转换的概率。因此,如果你想在行业中构建基于规则的系统,我们的学习结构可以在初始阶段为专业人士节省大量时间,并提供关于数据更详细的信息。如果想在统计对话模块上构建统计方法,还可以使用我们的学习结构和转换概率来为基于强化学习的方法设计更好的奖励函数。
在最近的一系列研究中,我们希望建立一个只需要少量监督的对话系统,因为在实际应用中,没有人可以提供上千个标签对话框来训练一个好的系统。因此,我们真正关注的是如何减少建立良好对话系统和开展客服工作所需的资源。我们的一些后续工作是关于如何使用元学习和其他转移学习方法,让学习模型在对话中从资源丰富的领域过渡到逐渐适应资源贫乏的领域。有人把这个过程叫做单次学习或少样本学习。这一系列的研究与我之前的研究有很大差别。我之前主要研究多模态对话系统,也就是如何将不同的信息流,即视觉和声学语言结合在一起,以获得更好的用户体验。当然利用较少的监督进行学习的研究也非常重要,能够直接帮助行业逐渐接受和适应采用基于 ML 的对话系统。
Wenli: 您对 Google 的 BERT(Bidirectional Encoder Representations from Transformer 转换器双向编码器表征)有什么看法?有人说 BERT 为 NLP 领域带来了重大变革。
Zhou Yu:
BERT 的确是一项非常好的创新,有助于完成下游任务,但这并不意味大家可以一劳永逸了。表征是非常重要和基本的,但它只是一种表现形式,创新应该体现在各个方面。所以通常在 BERT 所完成工作的基础之上,我们还有很多事情要做。针对特定的单项测试或特定类型的模型,我们希望确保基于 BERT 的创新可以改善目前的结果。
3 Alexa Prize 夺冠经历
Wenli: 去年,您所带领的团队参与了 Amazon Alexa Prize 的聊天机器人竞赛。您和 UC Davis 的 14 名学生所打造的聊天机器人与人类对话时间达到了 10 分钟,在所有参赛团队中最长,从而获得了第一名。能给我们回顾一下这段经历吗?
Zhou Yu:
Alexa Prize 是去年我们团队中一个非常重要的大项目,主要专注于改善社交机器人的用户体验。这是一项跨学科的工作,需要将人机交互知识、自然语言处理、基于知识的数据挖掘等所有这些学科结合在一起,创建一个能够流畅对话的机器人。Amazon 为我们提供了一个很好的平台,让我们能够收集真实的用户数据,这在对话系统研究中非常重要。我们的系统在过去一年中覆盖了数百万用户,收集到的大量数据点让我们在使用他们提供的数据时表现更出色。我们认为这也是一个更大的责任。我们希望确保我们的网络聊天机器人不会让与之交互的用户被来自社交媒体和网络的偏见所影响。这段精彩的旅程让我们在业界获得了大量的认可,但仍然还有很长的路要走。我们今年还会继续参加比赛,进一步提高机器人的交流时间。
在过去的一年中,我们主要致力于开发更好的语言理解工具应对这种特殊的开放域的对话,处理具有 ASR(Automatic Speech Recognition)错误的表达方式,让机器自动纠正和处理没有标点符号,没有大写,非常不规则的文本和被省略的部分。我们为开放域聊天机器人打造了一个工具包来进行句子分割,ASR 错误纠正,对话行为预测和句法依赖性解析。我们打算在下一个 Alexa Prize 竞赛开始前发布这个工具包和带注释的数据。
俞舟教授团队获得 2018 年 Alexa Prize 第一名(来源:Amazon)
Wenli: 我知道很多团队参加了不止一届竞赛,而你们完全是从零开始搜集数据。你们是如何克服新手面临的种种困难,最后夺冠的呢?在为期八个月马拉松式的比赛过程中,您本人扮演着怎样的领导角色?
Zhou Yu:
没错。我们去年参加 Alexa Prize 比赛的时候还是一个新的团队,包括我在内的所有人都没有任何参赛经验,学生们也不知道如何建立对话系统。我们完全处于劣势:没有累积任何数据,也没有现成的对话系统管道可以用。好在我之前的博士论文涉及到了这方面的一些知识,可以把其中对话结构应用于我们的管道中。虽然我们的起点很低,但是进步很快,逐渐后来居上。我认为所有学生的表现都很出色。
半决赛的时候,如果参考过去两个月的累计得分,我们的分数并不高,只能以外卡团队的身份继续比赛。但是决赛前的一两周,我们开始长期占据第一的位置。在这个过程中我们遇到了一些系统上的问题,会加剧系统延迟,从而对我们的评分产生了负面影响。一旦我们解决了这些问题,表现就会越来越好。在系统开发过程中肯定总会出现这样那样问题,这些都是很好的经验。
如果说我在比赛中扮演了什么样的角色,应该就是直接参与整个筹备和比赛的过程,每周都跟学生进行讨论,保证团队的进度。大家分工明确,团结协作。
UC Davis 参赛机器人 Gunrock(来源:Amazon)
Wenli: 你们为什么给机器人取名为“Gunrock”?为了夺冠做了怎样的准备工作?
Zhou Yu:
这是个很有意思的问题。通常当人们想到“Gunrock”时,会觉得这是个男性的名字,跟 Alexa 的女性声音刚好相反。但“Gunrock”实际上不是人名,是 UC Davis 的吉祥物,一批蓝色的马的名字。所以我们团队是借用了这个名字。
针对比赛中的开放式对话系统,我们开发了新的自然语言理解工具包,也修改了语言的生成过程。例如,我们构建了自动算法,在恰当的时候插入一些停顿或者高级韵律提示音,比如“哇!”“哈哈!”,让这些对话系统更具情感色彩。这样一来,人们就会认为这种系统具备了更生动的表现力,不太流畅的表达听起来也更自然。
4. 展望未来
Wenli: 您在自然语言处理中通常使用什么样的指标来定义对话的优劣?
Zhou Yu:
这实际上取决于所构建的系统类型或所关注的任务。如果面对的是一个非常明确的协作任务,比如预订餐厅或者电影票,那么很多人会使用诸如任务完成率或者平均对话长度/效率等客观指标。还有一些比较主观的指标,例如用户可能会根据机器人的对话参与度,积极性或想要再次与机器人交谈的意愿来对机器人进行评价。但如果面对的是更复杂的测试,比如谈判或者劝说你做出什么样的决定,就更难评价机器人的表现。比如我们最近有一个新项目,利用一个名为“劝说”的新数据集说服人们给慈善机构捐款。你可以根据被劝说的对象,劝说成功的可能性以及捐款的数额来设计任务并收集反馈。
Wenli: 与计算机视觉技术等其他领域相比,人类的语言性更难预测。您在面对技术瓶颈时所做出的权衡是什么?
Zhou Yu:
对话中的语言通常是按照一定的顺序出现的。但是这种形式可能表面上看起来很相似,表达的却是完全不同的意思,系统的分析就会进入完全不同的路径。所以通过一个大数据集覆盖所有的可能性是很难的,尤其是对于交互系统来说。这就是为什么很多人会建议使用模拟器来模拟用户的行为方式。那么另一个问题就是如何建立一个标准化的优质用户模拟器,以便人们知道他们在使用相同的标准进行测试。这些都是对话领域比较大的问题。
我们最近正在为 EMNLP 会议(自然语言处理实证方法大会,NLP 领域顶级会议)做准备,将使用所训练过的各种模型发布不同的用户模拟器,人们就不再需要构建自己的模拟器。我们还会为模拟器提供用户排行榜,让大家了解其他比较对象的信息。
Wenli: 您在这个领域有什么具体的目标吗?还有哪些地方需要改进?
Zhou Yu:
我一直想要打造一个真正智能化的系统,尽一切可能让机器理解常识和会话情境,有求必应。 我们现在离那个目标还很远。可以参考那些脍炙人口的科幻小说和电影。比如之前一部著名的电影,《她》。电影中斯嘉丽·约翰逊所配音的一个语音助理可以帮助用户完成各种各样的任务,比如安排会议,阅读信件和撰写文稿;但它同时也能够以朋友的身份谈天说地,理解人类的情绪并做出回应。一个能够完成大部分任务的系统可以让人类从繁琐的任务中解脱出来。除此之外,能够真正理解人类情感并与人类建立友谊也是另一个重要的目标。(完)
查看采访原文:https://www.robinly.info/blog/yu-zhou-assistant-professor-uc-davis-conversational-ai
评论