IEEE Fellow何晓冬:让客服不再冰冷

2020 年 2 月 19 日

IEEE Fellow何晓冬:让客服不再冰冷

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业,创业,投资,领导力的理解。本期是Robin.ly创始人Alex Ren采访京东AI研究院常务副院长,前微软雷德蒙研究院主任研究员、新当选IEEE Fellow 何晓冬博士。


Alex:大家好,我是 Alex Ren,是 TalentSeer 的创始人,也是 BoomingStar Ventures 的管理合伙人。Robin.ly 平台设置的初衷是为提高广大研究人员和工程师对 AI,对 Leadership 以及 entrepreneurship 的理解。今天有幸邀请到京东 AI 研究院的常务副院长,也是深度学习语言语音研究所的主任,何晓冬博士。何博士曾任微软雷德蒙研究院主任研究员,并且担任华盛顿大学兼职教授和博士生导师。在深度学习,自然语言处理,语音识别,计算机视觉等很多领域,建树颇多。尤其对于 AI,leadership 以及 AI 落地很有心得,何博士会在这些方面进行分享。


Alex:何博士,你是今年年初加入京东?


何晓冬: 对,我在今年三月份正式加入京东。


Alex: 您读博士时主要研究语音识别,后涉猎了深度学习,CaptionBot,再到 Drawing bot,AttnGan,一直到最近在做的情感客服类工作,能否介绍下您的研究兴趣?一路走来,AI 从传统方法到深度学习,您的研究路径是什么?


何晓冬: 我做博士的时候是做语音识别。那个时候一般不谈自己做 AI,当然语音识别本身是 AI 的一个核心问题。在清华毕业以后,去中国科学院读硕士研究生的时候,我开始做语音识别。那时候还是用一些统计模型方法,比如像马可夫模型,高斯模型。到美国以后,读博士时就继续了这个方向,用统计方向来做语音识别。语音识别其实是一个很多年的核心问题,大家都在推进展。博士毕业后,我加入微软,进入微软研究院。我也是从语音识别开始做起,希望语音识别能产生一些产业上的帮助,创造价值。语音试别以后,很自然地希望理解它。因为语音识别只是把声学信号变成一连串的文字,但其实计算机并没有真正理解这个话的意思,所以为了理解这个话的意思,我们自然要进入 NLP,自然语言处理,包括语言理解。我在微软研究院时候,最开始从机器翻译入手,机器翻译就是一个很核心的 NLP 问题。举个例子,把中文翻成英文,看似很简单,但是一代又一代科学家做了很多年。


Alex: 其实 Geoffrey Hinton 关于深度学习的研究,最早的应用主要在自然语言处理方面,而且也是在微软研究院最先完成的,对吧?


何晓冬: 这也是个很有趣的故事。可能现在很多人觉得图像识别很重要,但其实深度学习最开始在核心 AI 技术上的突破是从大规模的语音识别突破开始的。2008 年的时候,我算是第一次认识 Hinton。那年邓力和我,我们是同事,在 NIPS 会上举办了一个叫做“Speech and Language: Learning-Based Methods and Systems”的 workshop。我们邀请了 Hinton 介绍他最新的工作,包括深度学习。2009 年 NIPS,邓力,俞栋,Hinton 又举办了一个 workshop。再后来微软邀请了 Hinton 去访问。同时开始招收实习生,把项目做起来。大概在 2010 年左右,看到了深度学习在大规模的语音识别上产生了突破性的进展。


Alex:当时的很多工作还是比较前沿性的研究?后来开始大量应用是 2012 年吗?


何晓冬: 2010 年以后,我们在微软内部看到,深度学习已经在语音识别上取得了很多进展,认为这是一个很有前景的方向。也扭转整个业界对深度学习,特别是对神经网络的看法。在此之前大家都并不认为神经网络是一个很吃香的方向。但是由于微软及业界做出了成果,大家开始转变了观念。从那时候开始,在图像,在自然语言处理方面都有了很多进展。2012 年开始,业内以很快的速度实现了很多突破。


Alex: 能否介绍下 CaptionBot?


何晓冬: 因为我一直在做语言,语音这一块,包括像 2012 年开始,与 Yoshua Bengio 合作,开始做自然语言理解,Spoken LanguageUnderstanding. 后来我们还提出了 DSSM 模型,也就是深度结构语意模型。然后我们发现可以 go beyond the language, 抓住深度学习的契机,把不管是语音语言,还是图像,都可在同一个语义空间用 feature vector 来表示,叫作 embedding feature vector。这样就使得语言和图像这种不搭界的两个问题,可以统一在同一个 embedding 的空间里,一个语意空间里。再进一步扩展,如果能把图像和文字,按照它们本身的意义和内容,放到同一个空间里去,就可以实现图像和文字的互相转化。所以后来我们在 2013 年底,提出了这个 proposal 到微软的一个 strategic intern program,开始准备做这个方向。但这不仅是我一个人的想法,也是因为数据差不多积累到合适的状态。那时 MSR 刚好 sponsor 了一个名为 MS COCO 的 dataset,对每一个图片都有很多自然语言描述,使得我们的研究有了数据基础。同时还有一些其他的进展,包括端到端的机器学习,包括 sequential model,这些深度学习模型都出现了。正好是一个合适的时间点。所以我就把我从语言理解专业又扩到了多模态的领域,具体的说是 image captioning 领域,并跟同事们一起打造了 CaptionBot。


Alex: 后来你又做了一些研究,比如 DrawingBot,AttnGAN,能介绍一下什么是 AttnGAN 吗?


何晓冬: GAN 现在可能大家现在比较熟,就是 GenerativeAdversarial Networks, 对抗性生成网络,被应用于生成图像。我们之所以做 AttnGAN,是想做 CaptionBot 的反向,做一个 closed loop。CaptionBot 是从图片生成它的文字描述。AttnGAN,是 GAN 的一个扩展,是从文字描述生成一个对应图片。AttnGAN 试图引入一种像人一样的 attention 的机制,使得我们在画图时,在画每一个局部的细节时,能对应到文字里的每一个细节。AttnGAN 是专门针对局部对局部的语意对照做的一个模型,让画的图更加精细。基于 AttnGAN 算法我们开发的一个智能绘画机器人就叫 DrawingBot。


Alex:举个例子,如果想画我们 Logo 的这只鸟,应该如何描述?



何晓冬博士讲述如何 DrawingBot 原理


何晓冬: 那你可对 DrawingBot 说,我想画一只鸟,她的脖子是橘色的,肚子是白色的,羽翼是灰色的。DrawingBot 就会画这么一只鸟。


Alex:目前已经有人开始利用技术进行创作了吗?


何晓冬: 现在我们还在讨论阶段。其实在我来硅谷之前,清华美院举办了叫 Art and Design 3.0Forum 的论坛,我在论坛上做了一个小发言,就是展示了一些类似的例子。什么是想象力?我们以前认为只有人才有想象力,机器只有记忆。其实在某些层面上,机器是可以看到很多不同的角度,画出一只全新的鸟。这个鸟可能在这个世界上从来没有存在过,有不同的颜色。甚至我们有一个 bug 把一只鸟的嘴巴都画成蓝色,这肯定是不存在的。但这也可以看成机器的想象力,就像是小孩子一样,可以想象出一些世界上没出过的东西。本质上生成就是在一个空间内按某种分布采样,想象力可看成在一个合理区间的边缘采样。


Alex: 目前京东把 AI 的技术运用到线上线下零售领域。这方面的侧重点是什么?


何晓冬: 京东有一个很全的链条,包括厂家采购,到网站做 display,交易,到售后服务,做收付款,包括送货,及可能需要的退货处理。京东的链条非常长。在每个环节,AI 都可以有很重要的应用,或者促进。举一个简单的例子,比如售后服务。京东有一个智能客服机器人。如果用户买东西有些问题,可以通过聊天来问这个机器人,为什么东西还没到,为什么东西损坏了。chatbot 就是一个经典的 AI 应用。研究院成立以来,进一步促进了 AI 的应用,改进了智能客服。其中之一就是在智能客服加入了情感。以前我们的 chatbot 就事论事的回答用户的问题。后来我们发现,当客户来联系客服的时候,往往带有一些情绪,比如,不高兴,生气或者焦急。所以我们最近的一个工作就是,通过 AI 把情感智能加入到 chatbot 中,能够检测到用户的情绪,同时交谈时,也会相应的生成一些安抚性的语言,使用户感受到被关心被关注,更加人性化,温暖的交互使得用户的满意度提高了很多。


Alex: 你本身完成了一个 transition:从一个很有成就的 AI 研究人员,到领导京东的 AI research。更多涉及 AI 商业化。你个人在从 researcher 到 leader 这个 transition 过程,遇到了什么挑战?什么事情促使你做了这个转变?


何晓冬: 转变可能有两个点。第一,从理论研究到实践。我以前在微软研究院,做研究更多一些。但是京东有这个机会,把 AI 进行产业上的应用。比如,刚举的客服的例子。一方面是机会,一方面是挑战。怎么样让 AI 确实在产业层面产生大规模的 impact,更加有影响力。这是挑战也是转变。意味着思考问题的出发点要进行调整。第二,如何进行多重协作。工程上有很多 involvement,怎样组织多个工程团队共同工作,从而真正做到一个可大规模推广,大规模应用的程度,而不仅仅局限在实验室里。


Alex: 可以分享下带领团队方面的心得么?


何晓冬: 谈不上太多心得。就是一些个人小小的分享。比如说一个团队做事情,很多时候要给大家讲得很清楚,给大家一个统一的 vision。这个事情的意义在什么地方,每个人为什么做这个事情,要让大家感到骄傲。明确 purpose 同时 feel proud of it. 让每个成员知道你做的这个事情将会很有影响力的。不是无足轻重,而是说目前你所从事的工作,在产业上,在本质上,在 thought, leadership 上都很领先的。像我们的情感客服是业界领先的大规模商用。小规模的可能有,但如此大规模的商用,京东应该是领先的。认识到这一点以后,每个工程师,每个团队成员,就可以更统一起来。


Alex:你觉得中国 AI 研究的优势在哪里呢?


何晓冬: 中国的优势在于可以很快的放大思想的影响力。中国规模非常大,以京东为例,京东能够服务超过 3 亿的消费者,他们每天都会在京东这个平台上进行大量的活动,所以算法和模型上的创新,可以很快被放大到整个平台上去。同时,另一方面,用户和算法模型之间的交互比如智能客服,会产生大量数据。这些数据可以刺激新的算法。这个交互循环会非常快,这是在中国做 AI 的一个优势。


Alex:能说说 3-5 年内,你的个人目标是什么吗?


何晓冬: 我个人希望看看 AI 能不能在典型的大规模产业化的基础上,落地并产生影响。大家知道 AI 经过几次寒冬,也经过几次高潮。我个人对这次的高潮更加乐观。因为 AI 要真正要落地才能对整个社会产生影响。这也是为什么像京东有那么长的链条,有那么多数据,是一个很好的落地机会。随后三到五年,我希望把研究方面或者技术方面的一些先进的技术和模型,真正的带到产业上进行落地。一方面验证或者促进研究,另一方面是希望提高这个产业本身,并引领产业的一些变革。


Alex:深度学习快速发展了一段时间,已经出现了很多 framework 和工具之类的,一些很多软件工程师,或者算法工程师做这些方面的应用技术也更加容易,甚至一些高中生也可以调整参数。既然如此,我们是否还需要昂贵的 AI researcher 呢?


何晓冬: 会调参数的高中生相当宝贵,如果有,立马把她找过来做我的实习生!从研究方面,我们对研究员提出的要求更高了,不是说把模块,或者神经层,往那一叠,就变成了一个新模型。要在算法上真正有创新。希望研究员们的创新可以带来更多深远的影响。


Alex: 所以现在的工作更多的转向了 engineering,理解市场,理解需求?


何晓冬: 对。我现在越来越关注这个方向。同时研究还是希望能继续保持,包括 publication 和参加学术会议,一方面知道最新的思想发展,另一方面也花一些精力看怎么样有可能在产业上产生影响,在实际过程中产生影响。


Alex: 根据你的经历,你看到深度学习技术本身,或者这个 research,未来的研究方向有什么样的变化?


何晓冬: 其实深度学习带来很多 AI 上的进步,但我们还有很多没有理解的地方。举个例子说,我们从感知,试别语音和图像,进化到认知,做阅读理解。实际上我们没有真正理解,人是怎么理解文字的。这可能还需要从认知(cognition)的角度来看,才能更深的理解这个问题。另一方面,我们也不知道人的大脑到底是怎么工作的,我们说神经网络,神经这个词我们是从大脑借过来的,但是并不知道大脑真正怎么工作。


Alex:所以我们叫 Artificial Intelligence 嘛。


何晓冬: 所以那么现在可能是个机会,我们能不能真正理解大脑是的工作机制。如果能真正理解,会促进我们技术的提高。


Alex:其实更多的角度是从脑科学,或者 cognitive science 去借鉴一些方法?


何晓冬: 某些研究领域是这样。但是产业方面,我倒认为,随后看得见的 10 年之内,深度学习是一个主流的能够推动 AI 前进的核心方向。这个问题很简单,并不是说深度学习本身有什么 magic,而是因为整个过去十年和随后十年,一个很大的趋势是计算力(computation power)在指数级别增长。数据,特别是无结构的文本,图像,也在指数级增长。从这两点,能 take 这两个 benefit 的模型,算法和技术,也会有一个指数级增长的机会。所以深度学习就正好有整个特性,有足够大的 capacity,能够用到那么大的计算力量,同时又能够把这么多数据消化掉。从一个工程化,或者应用的角度看,这是深度学习的一个优势。从研究看,确实要懂,要理解是怎么回事,理解脑是怎么工作的,那是另外一个研究领域。


Alex: 感谢何博士对 AI,深度学习整体的介绍,从 introduce 到语音识别,自然语言处理,到现在做的在零售领域应用 AI,做到情感交互机器人互动等各个领域的介绍。也感谢你分享了个人职业生涯上,从 researcher 到 leader 的 transition,包括他所做工作的不同 transition。希望你在这方面能做出更多的成果,希望京东在 AI 落地上取得更多成果。


何晓冬: 非常感谢给我机会可以和大家进行交流。



本文转载自 Robinly 微信公众平台。


原文链接:https://mp.weixin.qq.com/s/6C_mcOM2T8WHT5EcNhKcPw


2020 年 2 月 19 日 20:43146

评论

发布
暂无评论
发现更多内容

kubernetes集群安装(二进制)

小小文

Kubernetes 容器 容器技术

Linux 进程必知必会

cxuan

Linux 操作系统

​区块链技术的重要性

CECBC区块链专委会

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

SpringBoot入门:00 - 初始化项目

封不羁

Spring Boot java 14

性能碾压 POI !利用模板语法快速生成 Excel 报表

Geek_Willie

表格控件 GCExcel 服务器端开发

浅析 VO、DTO、DO、PO 的概念、区别和用处!

Java小咖秀

学习 设计模式 模型 经验分享

不是完成你学习的 KPI ,而是要形成指导你行动的 OKR

非著名程序员

学习 程序员 提升认知 知识管理 程序员成长

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

Tomcat8.5源码构建

知春秋

tomcat tomcat构建 tomcat源码解读 tomcat剖析

关于计划的思考

zhongzhq

Python类中的__new__和__init__的区别

Young先生

Python __init__ __new__

Node.js与二进制数据流

自然醒

Java node.js 前端 二进制

图片处理不用愁,给你十个小帮手

阿宝哥

Java 前端 工具 开源项目 图片

Python中的@staticmethod和@classmethod的区别

Young先生

Python classmethod staticmethod

JVM中栈的frames详解

程序那些事

JVM 堆栈 性能调优 JIT GC

重学 Java 设计模式:实战访问者模式「模拟家长与校长,对学生和老师的不同视角信息的访问场景」

小傅哥

设计模式 小傅哥 重构 代码优化 访问者模式

字节跳动面试经验分享,已拿 Offer!

伍陆柒

Java 面试 大厂

猿灯塔:spring Boot Starter开发及源码刨析(二)

猿灯塔

Java 猿灯塔 源码刨析

一文看懂 OAuth2

pingan8787

Java 前端 Web oauth2.0

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

推荐一款Python开源库,技术人必备的造数据神器!

狂师

Python 开源 自动化 开发工具 开发数据

Redis进阶篇三——主从复制

多选参数

redis redis高可用 redis6.0.0 Redis项目

Rust是如何保障内存安全的

博文视点Broadview

读书笔记 rust

一些思考

张健

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

聊聊Spring的IOC以及JVM的类加载

小隐乐乐

工厂方法模式

Leetao

Python 设计模式 工厂方法模式

带你解析MySQL binlog

Simon

MySQL Binlog

IEEE Fellow何晓冬:让客服不再冰冷-InfoQ