产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点

  • 2015-12-18
  • 本文字数:4172 字

    阅读完需:约 14 分钟

腾讯旗下微信团队和香港科技大学于 11 月 30 日宣布成立联合实验室,WeChat-HKUST Joint Lab on Artificial Intelligence Technology,简称:WHAT Lab。该实验室将以人工智能为主要研究方向,旨在改善用户的生活服务体验,借助大数据拓展机器学习的边界。

背景:

微信是腾讯于 2011 年推出的一款手机社交媒体应用,与开放性的舆论平台不同,微信是一种封闭的社交平台。发布之后得到了迅猛的发展,到现在它拥有了 6.5 亿的活跃用户,创造了中国 IT 的又一个奇迹。

微信发展至今,在人工智能领域,在统计机器学习,自然语言处理,图像分析和语音识别方面有很多积累。其产品包括大家熟悉的语音转换文字,微信用户斑马分析系统、扫一扫功能(扫码、扫产品,书和电影广告,扫词翻译),摇音乐、摇电视以及“为盲人读书”等公益项目。在深度学习,基于统计学习的语音、文本理解和大数据挖掘方面都有专门的研究人员。

在中国的社交媒体应用上,微博是开放性的社交平台;与国外对应的是 Twitter。微信作为封闭式的社交平台,在国内马上有了赶超微博之势;微信在国外对应的是 Facebook。在人工智能的发展上,Twitter 于 2014 年和 2015 年分别收购了人工智能公司 Madbits 和 Whetlab,Facebook 早于 2013 年就和 NYU 成立了自己的人工智能实验室 FAIR。而和香港科技大学组成的人工智能联合实验室正是微信的有力出击。

WHAT Lab 联合实验室位于香港科技大学校园内,由香港科技大学计算机科学与工程系主任杨强教授负责。

杨强是美国电子电器工程师协会院士(IEEE fellow)、国际人工智能协会首个华人院士(AAAI Fellow),于 2012 年获华为邀请参与创办从事人工智能及大数据研究的诺亚方舟实验室。杨教授是多本国际期刊的编委,包括 IEEE 大数据期刊创始主编,他曾组织多个人工智能和数据挖掘的国际会议。

InfoQ 对成立 WHAT Lab 的事件,同时采访了香港科技大学的杨强教授和微信技术架构部模式识别中心总监陈波。

关于合作:

InfoQ:为什么选择香港科技大学?

香港科技大学在人工智能,机器人和大数据领域在世界上都是处于领先地位。香港科技大学的机器学习研究团队和学生曾经获得多项世界比赛冠军,包括 ACM KDDCUP 大赛的多次冠军,诺基亚大赛冠军,以及在 ImageNet 计算机视觉大赛上,与互联网公司合作的冠军。在迁移学习,统计机器翻译和深度语音学习领域也引领世界研究潮流。学校研究的情感机器人被“科学美国人”报道,大学出来的创新公司包括世界闻名的“大疆”公司。大学云集国际著名协会的院士,包括几十名 IEEE Fellow。杨强教授本人也是国际高等人工智能协会(AAAI)的首名华人院士,2015 年国际人工智能大会的主席,以及 IEEE“大数据”期刊的创始主编。

杨强教授在接受 SCMP 采访时提到:“我们的学生有很好的理论能力,善于建模,但是需要真实数据来训练和测试。”而微信提供的数据能让该实验室下的博士生们来验证他们的模型。“有了这么多的数据,我们就可以更好的建立一个理解人类语言,理解人类意图,更友好动人的系统”。

同时 InfoQ 的小编也询问了香港科技大学的人工智能团队开发出来的最有意思的模型是什么,杨强教授回答说:

我们香港科大的团队在迁移学习领域有很多有意思的模型。比如,我们把照片或画作和文本当作两个不同的领域,运用迁移学习的模型,利用文本的模型来帮助对照片分类。同时,我们也可以通过对照片或画作的分析,找到最贴切的文本,比如诗词,来搭配。这就像是古人的诗中有画,画中有诗的道理。

研究重点:

WHAT Lab 的研究的主要方向是:数据挖掘、机器人对话、机器视觉、语音识别。研究重点是:“在微信大数据下的人工智能相关技术的突破,使得互联网+实现更智能的+,使得微信的连接可以更深入和延伸。”

数据挖掘:

微信官方最新公布的活跃用户是 6.5 亿,在不涉及用户聊天等隐私的情况下,如此庞大的用户群仍然会在开放平台信息交互,线上线下互动等微信生态体系中产生大量数据,如何通过数据挖掘的手段科学的分析这些数据中所体现的信息与知识,并将其应用到微信生态体系中产生价值,促进应用方产生数据反馈来修正系统,形成一个良性的闭环是研究上需要持续关注的问题。

数据挖掘现在是大家耳熟能详的概念,前不久微信也宣传了自己的斑马系统,在数据挖掘方面微信主要关注哪些方面,有什么不一样的理解,微信回答说:

针对我们的业务,我们对以下五个方面比较关注:

首先是多源异质数据的联合建模。比如朋友圈中公开的文字和图片,甚至用户主动签到的地理位置信息都应该是一体的,这种 cross domain 的联合建模使得我们的挖掘结果更加精准;

其次是用户画像数据生命周期的管理。人的生活状态是会随着时间变化的,比如用户关注了婚庆公司的公众号,不代表 TA 永远处于新婚状态,数据挖掘系统需要能自动管理这种时间衰减,以及其他的基于时间依赖关系的数据更新逻辑;

第三是进行数据挖掘分析的时候如何尽可能的刻画因果关系。很多时候大家看到的数据分析结果感觉与预想的结论是一致的,只是数据量化了,但是究竟是什么样的隐性因素促成了这样的结果呢?这需要我们尽可能的开发高维,多样,精细挖掘工作,从蛛丝马迹中寻找这种隐性因素;

第四是超大规模的机器学习并行化计算平台。大家都知道数据挖掘中有一项技术是机器学习,在超大规模的数据面前要想充分发挥机器学习的威力,我们有时候需要建立更加复杂的模型来学习刻画数据的内在特质。这种超大规模数据和模型的并行化机器学习需要一个非常强大的并行化计算平台来支撑;

最后,如何实现线上线下的数据应用和融合。微信天然的具有线下应用的优势,如何把我们的数据挖掘模型,用户画像系统应用到现实生活中,联合线上线下建立时间和空间的关系,帮助进行更加科学的决策也是我们非常关心的。

对于微信,每一处的改进惠及的将是亿万的用户。

对数据进行有效的挖掘,意味着需要在保护用户隐私之间做最合适的权衡。对于微信用户来说最关心的问题始终是大数据下的用户信息隐私。InfoQ 询问了现在微信团队采取了哪些举措在保护用户的权益。

首先是保证隐私的数据不可以动。还有就是在用户同意的情况下,利用数据挖掘来帮助建立有利于用户的服务。比如,在“为盲胞读书”的活动中,用户的语音是在用户同意的基础上上传的。

机器人:

在人工智能领域,机器人是个热点,各大巨头都先后推出自己的问答机器人,如:Apple Siri、Google Now、Microsoft Cortana、Facebook M。同时微信也对外介绍了自己的智能机器人小微。微信机器人已经在客服系统上落地,比如微众银行、微信团队、腾讯游戏等背后的客服机器人都是来自于小微的技术。机器人旨在提高人类的生存质量和幸福指数,“让每个人都有自己的贴身小秘书”,杨强教授说。而微信具有这样的生态圈,有如此巨大的数据量和用户基础,机器人的发展肯定会越来越好,越用越智能,相信能取得意想不到的进展。

对于微信云端机器人服务功能的定位,微信回答说:

对话是天然的交互方式,而机器人正是对话交流最好的载体,同时机器人也应该是一个有情感、个性化、能为用户提供服务的实体。在这个方面,微信有着独特的优势:IM 平台、永久在线、大数据、用户画像、闭环服务等,通过人工智能机器人来连接人和服务,人和人。我们的机器人研究也着眼于这个想法,为千万服务号提供自动、实时、智能的服务,同时也希望有一天它能成为用户的贴心朋友,能为用户解决生活中的一些问题。

语音识别:

本着让世界更开放连通的宗旨,语言服务是社交软件的必经之路。

InfoQ 询问了目前微信自然语言处理或语音识别功能的研究里除了中英文是否还能支持分析其他小语种语言,如果不支持原因是什么。

目前微信语音识别支持中英粤三种语言,尚且不支持其他小语种。主要原因是数据采集以及小语种语音学专家知识的欠缺,不过目前一些端到端的方案为快速开发小语种引擎提供了可能,我们也正在研究。

微信未来的发展:

正如微信的产品定位,“微信,是一种生活方式”,在这个信息化的时代,社交网络越来越多的参与到了人们的生活中。社交网络用各种方式满足人们的需求。我们不得不思考什么样的技术变革能导致下一个微信级的产品出现,InfoQ 询问了未来的社交网络会是什么样的。

未来的社交网络应该不仅是人与人之间的交流,而且是人与服务间的交流。人与人之间的交流,只要把通道做好就行了。人与服务之间的交流需要服务提供方理解用户的意图,痛点,和需求。需要把行业知识转化为答案。这就需要知识的学习和管理,需要知识的迁移能力和对用户的推荐精度。这些都是人工智能的长项,也需要人工智能来实现。应该说,在社交网络上,通过大数据和人工智能,最有可能让每一个用户都拥有自己的贴心秘书。

最后 InfoQ 特地询问了杨强教授对人工智能领域的工作人员有没有什么指导性的建议。

人工智能机器学习今天的成就取决于几个条件的满足:首先,有优秀的算法,然后,有大数据,最后,有并行和分布式的高性能计算资源。这些条件在图像,语音,在线推荐都得到满足,因而在这些领域人工智能都有了长足的发展。

今后,我们可以预期有更多的领域会满足这样的条件,因而成为人工智能的下一个成功所在。社会网络的数据量和互联网+的强劲需求会使得移动社交平台成为人工智能成功的下一个热点。

采访嘉宾介绍:

杨强:香港科技大学计算机系主任,大学冠名讲座教授。他是国际人工智能协会(AAAI)的首个华人 Fellow 和 IEEE 等国际协会的 Fellow,ACM 杰出科学家。主要研究兴趣包括人工智能和数据挖掘,大数据,迁移学习与智能推荐。他指导的团队曾经赢得了 ACM KDDCUP,诺基亚移动大赛等国际数据挖掘大赛的冠军。他是国际人工智能协会(IJCAI) 的理事,中国人工智能协会常务理事,以及 2015 年国际人工智能大会(IJCAI 2015)的程序主席,系 ACM Transactions on Intelligent Systems and Technology 和 IEEE Transactions on Big Data 的创刊主编,清华大学出版社出版的《学术研究,你的成功之路》一书的共同作者。于 2012 年任华为诺亚方舟实验室创始主任,对企业界也有重要的影响。

杨强于 1978 年毕业于北京大学天体物理专业,于 1989 年在美国马里兰大学获得计算机博士学位。于 1989 至 2001 年在在加拿大滑铁卢大学和 Simon Fraser 大学任教。

陈波:微信技术架构部模式识别中心总监,清华大学硕士毕业,2008 年加入腾讯,2011 年开始负责微信人工智能相关的基础研究管理工作,团队涉及领域有语音识别、图像分析、对话系统、数据挖掘等。

2015-12-18 18:005268
用户头像
Tina InfoQ高级编辑

发布了 1477 篇内容, 共 1090.8 次阅读, 收获喜欢 3812 次。

关注

评论

发布
暂无评论
发现更多内容

《Linux设备驱动开发详解》读书笔记

贾献华

7月月更

Java 集合

Damon

7月月更

Python图像处理丨图像腐蚀与图像膨胀

华为云开发者联盟

Python 软件 开发 图像处理

如何系统进行学习web前端开发工程师技术

小谷哥

小程序容器技术让混合App开发效率提升

Geek_99967b

小程序容器

Web安全之Java反序列漏洞总结

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

ArkUI路由跳转概览

坚果

HarmonyOS OpenHarmony 7月月更

新一代云原生消息队列 (二)

技术小生

pulsar Apache Pulsar 消息系统 7月月更

新书上市 | C 语言经典教材配套“习题解答”,原书累计印数 10 万 +

图灵教育

C语言

ECCV2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向

科技热闻

融云 x 天聊,用声音打造「无压力社交」栖息地

融云 RongCloud

开鸿智谷 Niobe 407 正式并入OpenHarmony代码主干

科技汇

泰凌微电子B91通用开发板合入OpenHarmony社区主干

科技汇

2022冲刺金九银十震撼发布!Java八股文+大厂面试真题,干货满满!

了不起的程序猿

Java java程序员 java面试

Python|制作词云,改变词云字体颜色

AXYZdong

Python 7月月更

在线SQL转XML工具

入门小站

工具

转行前端是自学好还是培训班好

小谷哥

从全球价值链视角看,京东云数智供应链对未来经济有何影响?

脑极体

本周四晚19:00知识赋能第3期直播丨OpenHarmony智能家居项目之控制面板功能实现

OpenHarmony开发者

Open Harmony

AIOps落地五大原则(三):架构路线

BizSeer必示科技

人工智能 AIOPS

Chrome实现自动化测试:录制回放网页动作

和牛

测试

哪个年龄段学习web前端培训比较好

小谷哥

C 语言入门(四)

逝缘~

7月月更

如何系统学习web前端技术知识

小谷哥

日志黑名单,真的能帮你省钱!

观测云

Python3详细的数组基础操作-入门必备[列表的操作]

迷彩

数组 Python基础 列表 7月月更

2022-07微软漏洞通告

火绒安全

microsoft 安全 漏洞

还不了解进程吗?就这一篇!

C++后台开发

网络编程 进程 通信 linux开发 C++开发

StarRocks 成都见!企业如何打造极速统一的数据分析新范式,助力业务全方位升级

StarRocks

数据库 大数据 数据分析 国产数据库

Kubernetes入坑篇

青柚1943

Kubernetes DevOps minikube

在线多行文本批量正则替换添加后缀工具

入门小站

工具

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点_语言 & 开发_Tina_InfoQ精选文章