写点什么

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点

  • 2015-12-18
  • 本文字数:4172 字

    阅读完需:约 14 分钟

腾讯旗下微信团队和香港科技大学于 11 月 30 日宣布成立联合实验室,WeChat-HKUST Joint Lab on Artificial Intelligence Technology,简称:WHAT Lab。该实验室将以人工智能为主要研究方向,旨在改善用户的生活服务体验,借助大数据拓展机器学习的边界。

背景:

微信是腾讯于 2011 年推出的一款手机社交媒体应用,与开放性的舆论平台不同,微信是一种封闭的社交平台。发布之后得到了迅猛的发展,到现在它拥有了 6.5 亿的活跃用户,创造了中国 IT 的又一个奇迹。

微信发展至今,在人工智能领域,在统计机器学习,自然语言处理,图像分析和语音识别方面有很多积累。其产品包括大家熟悉的语音转换文字,微信用户斑马分析系统、扫一扫功能(扫码、扫产品,书和电影广告,扫词翻译),摇音乐、摇电视以及“为盲人读书”等公益项目。在深度学习,基于统计学习的语音、文本理解和大数据挖掘方面都有专门的研究人员。

在中国的社交媒体应用上,微博是开放性的社交平台;与国外对应的是 Twitter。微信作为封闭式的社交平台,在国内马上有了赶超微博之势;微信在国外对应的是 Facebook。在人工智能的发展上,Twitter 于 2014 年和 2015 年分别收购了人工智能公司 Madbits 和 Whetlab,Facebook 早于 2013 年就和 NYU 成立了自己的人工智能实验室 FAIR。而和香港科技大学组成的人工智能联合实验室正是微信的有力出击。

WHAT Lab 联合实验室位于香港科技大学校园内,由香港科技大学计算机科学与工程系主任杨强教授负责。

杨强是美国电子电器工程师协会院士(IEEE fellow)、国际人工智能协会首个华人院士(AAAI Fellow),于 2012 年获华为邀请参与创办从事人工智能及大数据研究的诺亚方舟实验室。杨教授是多本国际期刊的编委,包括 IEEE 大数据期刊创始主编,他曾组织多个人工智能和数据挖掘的国际会议。

InfoQ 对成立 WHAT Lab 的事件,同时采访了香港科技大学的杨强教授和微信技术架构部模式识别中心总监陈波。

关于合作:

InfoQ:为什么选择香港科技大学?

香港科技大学在人工智能,机器人和大数据领域在世界上都是处于领先地位。香港科技大学的机器学习研究团队和学生曾经获得多项世界比赛冠军,包括 ACM KDDCUP 大赛的多次冠军,诺基亚大赛冠军,以及在 ImageNet 计算机视觉大赛上,与互联网公司合作的冠军。在迁移学习,统计机器翻译和深度语音学习领域也引领世界研究潮流。学校研究的情感机器人被“科学美国人”报道,大学出来的创新公司包括世界闻名的“大疆”公司。大学云集国际著名协会的院士,包括几十名 IEEE Fellow。杨强教授本人也是国际高等人工智能协会(AAAI)的首名华人院士,2015 年国际人工智能大会的主席,以及 IEEE“大数据”期刊的创始主编。

杨强教授在接受 SCMP 采访时提到:“我们的学生有很好的理论能力,善于建模,但是需要真实数据来训练和测试。”而微信提供的数据能让该实验室下的博士生们来验证他们的模型。“有了这么多的数据,我们就可以更好的建立一个理解人类语言,理解人类意图,更友好动人的系统”。

同时 InfoQ 的小编也询问了香港科技大学的人工智能团队开发出来的最有意思的模型是什么,杨强教授回答说:

我们香港科大的团队在迁移学习领域有很多有意思的模型。比如,我们把照片或画作和文本当作两个不同的领域,运用迁移学习的模型,利用文本的模型来帮助对照片分类。同时,我们也可以通过对照片或画作的分析,找到最贴切的文本,比如诗词,来搭配。这就像是古人的诗中有画,画中有诗的道理。

研究重点:

WHAT Lab 的研究的主要方向是:数据挖掘、机器人对话、机器视觉、语音识别。研究重点是:“在微信大数据下的人工智能相关技术的突破,使得互联网+实现更智能的+,使得微信的连接可以更深入和延伸。”

数据挖掘:

微信官方最新公布的活跃用户是 6.5 亿,在不涉及用户聊天等隐私的情况下,如此庞大的用户群仍然会在开放平台信息交互,线上线下互动等微信生态体系中产生大量数据,如何通过数据挖掘的手段科学的分析这些数据中所体现的信息与知识,并将其应用到微信生态体系中产生价值,促进应用方产生数据反馈来修正系统,形成一个良性的闭环是研究上需要持续关注的问题。

数据挖掘现在是大家耳熟能详的概念,前不久微信也宣传了自己的斑马系统,在数据挖掘方面微信主要关注哪些方面,有什么不一样的理解,微信回答说:

针对我们的业务,我们对以下五个方面比较关注:

首先是多源异质数据的联合建模。比如朋友圈中公开的文字和图片,甚至用户主动签到的地理位置信息都应该是一体的,这种 cross domain 的联合建模使得我们的挖掘结果更加精准;

其次是用户画像数据生命周期的管理。人的生活状态是会随着时间变化的,比如用户关注了婚庆公司的公众号,不代表 TA 永远处于新婚状态,数据挖掘系统需要能自动管理这种时间衰减,以及其他的基于时间依赖关系的数据更新逻辑;

第三是进行数据挖掘分析的时候如何尽可能的刻画因果关系。很多时候大家看到的数据分析结果感觉与预想的结论是一致的,只是数据量化了,但是究竟是什么样的隐性因素促成了这样的结果呢?这需要我们尽可能的开发高维,多样,精细挖掘工作,从蛛丝马迹中寻找这种隐性因素;

第四是超大规模的机器学习并行化计算平台。大家都知道数据挖掘中有一项技术是机器学习,在超大规模的数据面前要想充分发挥机器学习的威力,我们有时候需要建立更加复杂的模型来学习刻画数据的内在特质。这种超大规模数据和模型的并行化机器学习需要一个非常强大的并行化计算平台来支撑;

最后,如何实现线上线下的数据应用和融合。微信天然的具有线下应用的优势,如何把我们的数据挖掘模型,用户画像系统应用到现实生活中,联合线上线下建立时间和空间的关系,帮助进行更加科学的决策也是我们非常关心的。

对于微信,每一处的改进惠及的将是亿万的用户。

对数据进行有效的挖掘,意味着需要在保护用户隐私之间做最合适的权衡。对于微信用户来说最关心的问题始终是大数据下的用户信息隐私。InfoQ 询问了现在微信团队采取了哪些举措在保护用户的权益。

首先是保证隐私的数据不可以动。还有就是在用户同意的情况下,利用数据挖掘来帮助建立有利于用户的服务。比如,在“为盲胞读书”的活动中,用户的语音是在用户同意的基础上上传的。

机器人:

在人工智能领域,机器人是个热点,各大巨头都先后推出自己的问答机器人,如:Apple Siri、Google Now、Microsoft Cortana、Facebook M。同时微信也对外介绍了自己的智能机器人小微。微信机器人已经在客服系统上落地,比如微众银行、微信团队、腾讯游戏等背后的客服机器人都是来自于小微的技术。机器人旨在提高人类的生存质量和幸福指数,“让每个人都有自己的贴身小秘书”,杨强教授说。而微信具有这样的生态圈,有如此巨大的数据量和用户基础,机器人的发展肯定会越来越好,越用越智能,相信能取得意想不到的进展。

对于微信云端机器人服务功能的定位,微信回答说:

对话是天然的交互方式,而机器人正是对话交流最好的载体,同时机器人也应该是一个有情感、个性化、能为用户提供服务的实体。在这个方面,微信有着独特的优势:IM 平台、永久在线、大数据、用户画像、闭环服务等,通过人工智能机器人来连接人和服务,人和人。我们的机器人研究也着眼于这个想法,为千万服务号提供自动、实时、智能的服务,同时也希望有一天它能成为用户的贴心朋友,能为用户解决生活中的一些问题。

语音识别:

本着让世界更开放连通的宗旨,语言服务是社交软件的必经之路。

InfoQ 询问了目前微信自然语言处理或语音识别功能的研究里除了中英文是否还能支持分析其他小语种语言,如果不支持原因是什么。

目前微信语音识别支持中英粤三种语言,尚且不支持其他小语种。主要原因是数据采集以及小语种语音学专家知识的欠缺,不过目前一些端到端的方案为快速开发小语种引擎提供了可能,我们也正在研究。

微信未来的发展:

正如微信的产品定位,“微信,是一种生活方式”,在这个信息化的时代,社交网络越来越多的参与到了人们的生活中。社交网络用各种方式满足人们的需求。我们不得不思考什么样的技术变革能导致下一个微信级的产品出现,InfoQ 询问了未来的社交网络会是什么样的。

未来的社交网络应该不仅是人与人之间的交流,而且是人与服务间的交流。人与人之间的交流,只要把通道做好就行了。人与服务之间的交流需要服务提供方理解用户的意图,痛点,和需求。需要把行业知识转化为答案。这就需要知识的学习和管理,需要知识的迁移能力和对用户的推荐精度。这些都是人工智能的长项,也需要人工智能来实现。应该说,在社交网络上,通过大数据和人工智能,最有可能让每一个用户都拥有自己的贴心秘书。

最后 InfoQ 特地询问了杨强教授对人工智能领域的工作人员有没有什么指导性的建议。

人工智能机器学习今天的成就取决于几个条件的满足:首先,有优秀的算法,然后,有大数据,最后,有并行和分布式的高性能计算资源。这些条件在图像,语音,在线推荐都得到满足,因而在这些领域人工智能都有了长足的发展。

今后,我们可以预期有更多的领域会满足这样的条件,因而成为人工智能的下一个成功所在。社会网络的数据量和互联网+的强劲需求会使得移动社交平台成为人工智能成功的下一个热点。

采访嘉宾介绍:

杨强:香港科技大学计算机系主任,大学冠名讲座教授。他是国际人工智能协会(AAAI)的首个华人 Fellow 和 IEEE 等国际协会的 Fellow,ACM 杰出科学家。主要研究兴趣包括人工智能和数据挖掘,大数据,迁移学习与智能推荐。他指导的团队曾经赢得了 ACM KDDCUP,诺基亚移动大赛等国际数据挖掘大赛的冠军。他是国际人工智能协会(IJCAI) 的理事,中国人工智能协会常务理事,以及 2015 年国际人工智能大会(IJCAI 2015)的程序主席,系 ACM Transactions on Intelligent Systems and Technology 和 IEEE Transactions on Big Data 的创刊主编,清华大学出版社出版的《学术研究,你的成功之路》一书的共同作者。于 2012 年任华为诺亚方舟实验室创始主任,对企业界也有重要的影响。

杨强于 1978 年毕业于北京大学天体物理专业,于 1989 年在美国马里兰大学获得计算机博士学位。于 1989 至 2001 年在在加拿大滑铁卢大学和 Simon Fraser 大学任教。

陈波:微信技术架构部模式识别中心总监,清华大学硕士毕业,2008 年加入腾讯,2011 年开始负责微信人工智能相关的基础研究管理工作,团队涉及领域有语音识别、图像分析、对话系统、数据挖掘等。

2015-12-18 18:005645
用户头像
Tina InfoQ高级编辑

发布了 1632 篇内容, 共 1298.1 次阅读, 收获喜欢 3994 次。

关注

评论

发布
暂无评论
发现更多内容

LeetCode 169. Majority Element

liu_liu

算法 LeetCo

Go: 理解 Sync.Pool 的设计

陈思敏捷

sync sync.pool pool Go 语言

记录问题 INSERT INTO table ... SELECT ... FROM dual WHERE not exists (...)问题

转山转水

sql SQL语法 sql查询

区块链激励层——区块链生态建设的驱动力量

CECBC

区块链技术 驱动力量

计算机的时钟(三):向量时钟

ElvinYang

一文带你了解微服务架构和设计(多图)

Phoenix

架构 分布式 微服务

Java四种引用类型:强引用、软引用、弱引用、虚引用

简爱W

企业中台化落地:从战略分析到战术实践及架构演进过程

Barry的异想世界

架构设计 策略模式 模板方法模式 中台架构 领域驱动设计DDD

SpringCloud轻松集成Dubbo实现RPC调用

Barry的异想世界

微服务 dubbo nacos RPC spring cloud alibaba

不使用Raft算法,就能简单做集群leader选举

架构师修行之路

分布式 架构师

week11--作业

Geek_165f3d

以大数据为依托提升基层治理效能

CECBC

大数据 信息化管理

不草率,你只管下载资料,剩下的交给「哇哦」

小Q

Java 学习 架构 面试 分布式

我理解的面向对象(ObjectiveSql 实践)

Braisdom

Java ORM框架 ORM

Golang领域模型-实体

奔奔奔跑

架构 微服务 领域驱动设计 DDD Go 语言

HashMap将cpu打满始末

hashmap 线程安全 cpu 100% cpu飙满

重新学习了一遍ThreadLocal

熊斌

学习

从一段 Dubbo 源码到 CPU 分支预测的一次探险之旅

yes

dubbo cpu

spark总结

纯纯

金沙账号审核不通过维护不给提现风控怎么回事?怎么办

过山太阳

内容审核 提现不了

华为与第四范式,正在酝酿一个帮企业跳出AI悖论的“秘密计划”

脑极体

业务架构学习内容有哪些?

周金根

BIZBOK 业务架构

为什么每个微服务要有自己独立的数据库?

码猿外

数据库 架构 微服务

oeasy教您玩转 linux 010212 管道 pipe

o

我们该怎么保护手机屏幕前的父母?

徐说科技

手机 短视频

【高并发】面试官:讲讲什么是缓存穿透?击穿?雪崩?如何解决?

冰河

缓存 穿透 击穿 雪崩 签约计划第二季

认证、授权、鉴权和权限控制

哈库拉玛塔塔

spring security 用户权限 鉴权 权限

Spring Security 主要类解释

哈库拉玛塔塔

springsecurity

布式系统消息异常该何去何从

架构师修行之路

分布式 异步

浮点数的秘密

C语言与CPP编程

c c++ 编程语言 浮点数

区块链应用层——生态体系的上层建筑

CECBC

区块链技术 生态体系

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点_语言 & 开发_Tina_InfoQ精选文章