首先欢迎大家来到人工智能时代!
细心的同学们会发现,现在经常能在网上和一些新闻讯息里看到人工智能技术的讯息,从解放生产力到优化供应链,AI 技术在工业界的落地场景越来越多,也大大的提高了行业的效率。
各大企业和独角兽纷纷入局,想要在 AI 时代下占有自己的一块市场份额,但往往“理想很丰满,现实很骨感”,很多企业在将 AI 技术与业务相结合时会面临各种各样的问题,出现了情况反而会导致业务效率的降低,这个时候我们就要向大厂看,听听巨头们是如何实现技术优势最大化的。
我们有幸采访到了 美团点评技术总监王兴星老师,请他来讲讲美团是如何使用 AI 技术让外卖业务实现优势最大化的,他也将在 AICon 全球人工智能与机器学习技术大会 担任【机器学习应用和实践】专场的出品人。下面是 AICon 对他的专访:
Q:1. 王老师你好,十分感谢您能接受 AICon 组委会的采访,能简单介绍一下您自己和您目前的工作状态吗?
王兴星:2010 年进入中科院读硕士,期间先后在阿里核心系统研发部、百度凤巢和搜狗搜索做了近三年的 Intern;刚开始做工程架构,后来逐渐发现算法也很有趣,于是转到百度和搜狗做了广告和搜索算法相关的事情,也参加过一些比赛。
那时候,AI 算法的比赛刚刚兴起,第一次参加的比赛是 KDDCUP,记得也比较清楚,经常和小伙伴一起熬夜刷 LeaderBoard。每次看到排名上升都比较激动,这个和在工业界做了新算法上线,看见交易额或者广告收入上涨所带来的满足感很相似,比赛最终成绩还可以。后来也逐渐有了经验积累,做起来就轻松不少,也曾经在 2 周内拿了两个比赛的冠军。
毕业后去了搜狗,参与到搜狗的下一代推荐引擎和联盟广告的研发中,也是 AI 逐渐变热的阶段,做为工程师还是比较幸福的。
2016 年初加入美团,算是从 0 到 1 吧,搭建起了外卖的商业变现体系,目前涵盖了 Search/Feeds/Push 等多种产品形态。目前关注较多是商业模式的创新及算法对全业务链条的效率及效果的提升。
Q2. 机器学习技术发展到现在经历了哪几个历程,王老师可以简单介绍一下吗?
王兴星:第一个分水岭是上世纪的八十年代,逻辑回归和贝叶斯分类都出现在五十至七十年代,这个阶段机器学习基本是零散的模型,不成体系。
第二阶段是从八十年代到 2000 年前后,机器学习理论体系逐渐完善,有了分类、回归、聚类等体系,树模型有了 ID3/CART/C4.5,SVM 和 AdaBoost 也逐渐诞生和走热。同时在这个阶段,深度学习虽不被看好,但也在进行着基础的积累,BP、CNN、LSTM 等工作都诞生于这个阶段,为后面的爆发埋下了伏笔。
2000 年以后,随着互联网的兴起,传统机器学习开始应用落地,同时产业的进步也推动了计算能力的提升,为深度学习的爆发也进一步打下基础。2006 年以后,深度学习开始大放异彩,在此过程中一方面是方法体系的逐渐完善,深度学习的效果和作用面都得到了长足的进步,逐步地落地在视觉 /NLP/ 推荐和广告等多个领域。另外一方面,对应开源工具也逐步完善,TensorFlow/Caffe/MXNET/PyTorch 等优秀工具大幅降低了使用门槛。
此外还需要提的就是,2010 以后,深度学习和强化学习的结合进一步拓展了应用面,深度学习负责感知和表示,强化学习重点解决决策,诞生了 AlphaGo 这样具有代表性的应用。
Q3. 目前我们看到机器学习在很多业务场景中落地,需要解决哪些问题及如何进行技术选型?针对业务的特点如何进行相应改进?
王兴星:机器学习通常解决效率和效果的问题,人不能做的通过机器可以做,人可以做但是效率不高、效果不好的机器可以做的更好。例如,推荐的场景下,人没有办法从上亿个的商品中挑选出来用户最喜欢的,机器可以做,这解决的是"不能"到"能"的问题。公司通常也会对要上线的物料进行审核,通常一个人每天可以审核的物料数大概在千这个量级,如果通过机器或机器 + 人工的方法,效率可以提高两个数量级。
关于技术选型:
首先,不同的业务阶段可能采取的方案是不一样的。举个例子,业务刚刚起步的时候,我们在乎更快的迭代速度,随着业务的发展提升逐步趋于平缓,这个时候会考虑复杂度高、迭代慢但效果更好的模型。
其次,根据不同的任务要求,可能需要我们做技术方案的调整或创新。举个例子,以前我们做回归,都是只看最终的 RMSE 指标,在外卖的订单量预估的场景下,对模型性的可解释性提出很高的要求。例如,要求能给出来降雨对各个城市订单量的影响比例,还能够区分大雨 / 中雨 / 小雨,甚至不同的降雨量对订单的影响比例。这个怎么解决呢?我们通过级联模型的方法去建模。
最后,针对业务的特点,需要做对应的选型、优化。举个例子,同样是 CTR/GMV 预估,通常的解决方案是 LR 或者 FM/FFM 叠加上 Online Learning+ 大规模离散特征,或者深度学习 +Embedding 特征的解决方案。16 年 2 月,我刚来美团的时候,发现公司很多业务却是树模型 + 统计类型特征的方法,为什么呢?是因为在 O2O 场景下,对用户决策影响较大的是配送距离、销量、平均评价分等连续类型的特征,这种数值类型的输入树模型通常学习得较好。再到 O2O 的广告场景下,又会出现很多例如广告主 ID、投放计划 ID 等枚举和 ID 类型特征,能否兼容两种类型的输入呢,微软 DeepGBM 提供出一种思路。
Q4. 具体到美团的话,机器学习在哪些业务场景中得到了应用,为业务解决了哪些实际问题?
王兴星:美团的业务场景比较广泛,具体来讲可以分为到家、到店、出行几个大的业务集合,每个业务都面临各种各样的挑战。
以到家(外卖)为例,AI 会作用在业务的各个环节。例如,我们会使用算法帮助商家上单、优化物料,提升供应链的效率和效果。商家完成上单后,会使用图像识别技术提升审核的效率。在用户侧,我们会使用深度学习和强化学习给用户推荐商品,也会用机器学习技术做送达时间 (ETA) 的预估。用户下单后,我们还有配送团队做实时调度分单系统。此外,我们利用算法做商品销量、城市订单量的预估等工作,去帮助平台、商家运营。
美团有自己的技术博客,也出了一本机器学习实践的书,大家如果感兴趣,可以去进一步关注、阅读。
Q5. 中国目前机器学习领域,与国外比有何优劣势,哪个发展的更好?
王兴星:这个问题比较大,更准确的讲,是我们和美国比怎么样。从人才积累 / 资金投入 / 底层芯片 / 基础理论研究 / 产业应用几个方面综合来看,我们还是落后美国不少的。
美国厉害的地方,是能够吸引来自全球的人才,为他的社会发展做贡献。此外,国内很多的芯片目前也还是依赖于进口。基础理论的研究方面,国内发表的论文数逐年呈上升趋势,但重量级的工作偏少。在产业应用方面,几个热点方向芯片 / 语音 / 视觉 /NLP/ 自动驾驶 / 平台工具 / 智能机器人大家各有特点和优势。在投入上,资金方面国内还是相对偏少,这个也是国外能够诞生 DeepMind、波士顿动力的原因之一。此外,在”巨头卡位“上,大家都有动作,在市场和数据上也都相对充裕,算是齐头并发。
整体看,我们算是坐住了第二把交椅,但与第一仍有较大的差距。
Q6. 机器学习未来的发展形势如何,该如何选择未来的求职方向?
王兴星:有一句话:“人们总是倾向于高估两年能发生的变化,但是低估十年能发生的变化”,我想在技术上也是适用的。我们既要脚踏实地,也要仰望星空。
从技术发展趋势来看,一个是 Deep Learning +X 模式:将深度学习和其他问题相结合,例如我们过去看到的 Deep Learning + Reinforcement Learning、Deep Learning + Graph 等,未来应该还会有更多。再者,过去大家把绝大部分经历都放在了监督学习上,这一块的进展较为顺利,但半监督和无监督的进展就相对慢一些,不过从近几年的发表论文数看投入也有增加,相信未来还有有更多的力量投入非监督学习上。此外就是工具上,类 AutoML 和 MLFlow 型的工具会进一步完善,降低算法的门槛,会有更多的开发者会进入。
从求职、从业来看有两个点: 一是,机器学习还会进一步向各行业渗透,去提质、提效,由此也会带来更多的工作机会;二是,理论的创新速度要慢于落地应用的速度,但理论的创新会带来的颠覆性的影响,而应用落地过程中也需要接地气和“微创新”的工作,所以这两方面是都不能丢的。
如果是刚进入工业界的,应该选择自己喜欢的技术和业务方向,去落地积累和创新改变,同时关注新技术以及新应用、新行业的兴起。
以上就是 AICon 对于王老师的采访,想了解更多人工智能其他方向技术欢迎关注 AICon 北京 2019。
AICon 全球人工智能与机器学习技术大会 汇集了来自 微软、Intel、BAT、华为、美团、滴滴、京东 等一线互联网公司的 50+ 优秀 AI 技术案例,邀请 颜水成、贾扬清、崔宝秋、吴华、雷鸣、张峥 等 60+AI 技术大咖带来精彩的内容分享。
评论