本周的 InfoQ 播客内容是 QCon 主席 Wes Reiszt 与机器学习科学家 John Langford 之间的谈话。话题包括 John Langford 所创建的机器学习系统 Vowpal Wabbit。Vowpal Wabbit 设计为特别高效的机器学习系统,其中集成了一些机器学习领域最新算法,并已应用于 MSN 的新闻个性化。他们还讨论了如何在进入到机器学习领域,以及机器学习如何从学术研究中转向工业应用中。
关键要点:
- Vowpal Wabbit 是一种机器学习系统,力图实现对一些最新的机器学习算法的集成。
- 如何学习机器学习:选学一到两门课程,熟悉机器学习的理论和实践。
- 机器学习已从研究领域转向工业实践。在 ICML 会议的九个专题讲座中,其中的四个是来自于工业界。
- 即使具有了足够的数据,依然难以做到预测。
- AlphaGo 是人工智能的一个里程碑。它使用了强化学习、深度学习,以及围棋大师的实战棋谱。
- 当前深度学习是计算机视觉和语音识别等领域的颠覆性技术。
- 趋势是什么:神经网络、强化学习和情境学习。
- 机器学习技术正在商品化。
点击播客链接收听
摘要
对 Vowpal Wabbit 的概要描述
- 1 分 38 秒:Vowpal Wabbit(VW)旨在将最新的机器学习技术集成到算法中。
- 2 分 04 秒:对于实现从 K 个类别中择一的预测算法,当 K 的数值很大时,现有算法的计算代价很大。为改进该问题,VW 将包含一种称为“回调树”(Recall Tree)的次线性算法。(译者注:相关研究可参考该预发表论文)
- 3 分 08 秒:在单机上 VW 可达百兆数据输入在不到一秒时间内的接收。VW 中的学习算法默认采用的是线性回归方法。相比于朴素贝叶斯方法,线性回归方法更加强大。
- 3 分 32 秒:VW 使用“实例装配流水线”的方法加速了解析,使得运算时间得到改进。
- 4 分 04 秒:Langford 也在 Qcon 纽约大会上做了一个介绍 VW 的报告。在报告中,他通过给出一些实例展示了 VW 的工作方式。
- 4 分 25 秒,VW 已与其它的技术一起应用于个性化新闻推荐系统中的决策服务。
- 4 分 34 秒:在 MSN 中已部署了基于 VW 构建的新闻推荐系统,该系统的上线已使用户参与度增长了 25%。
- 4 分 58 秒:事实上,Vowpal Wabbit 是卡通人物猎人埃尔默·福德(Elmer Fudd)称呼兔八哥时的发音(Vorpal Rabbit)。“Vorpal”一词意为“非常地锋利”,出自“无意义的文字游戏”(Jabberwocky)。Jabberwocky 是一首由单词组成的没有特别意义的诗,对诗本身的理解取决于诗中单词的使用方式。“Wabbit”一词来源于电影“Killer Rabbit”,电影讲述一些人在找寻圣杯时遇上了一只十分特别的兔子。
如何走进机器学习
- 6 分 12 秒:对于机器学习的初学者,Langford 推荐去选学一到两门的课程,他提到了吴恩达的课程,以及 Yaser S. Abu-Mostafa 的课程。
- 6 分 50 秒:为避免犯新手才有的错误,建议应努力去熟悉机器学习的理论。
机器学习实践
- 7 分 38 秒:相比于十年前而言,机器学习在工业界得到了更广泛的应用。
- 7 分 58 秒:在 ICML 机器学习国际会议上,来自于工业界的与会者比例很高,九个专题讲座中的四个是来自于工业界,并且是其中最受欢迎的。
- 8 分 35 秒:机器学习是搜索和广告等工业领域的关键技术。
- 9 分 00 秒:机器学习已被用于控制中,例如,对种植或灌溉作物最佳时机的决策。
当具备足够的数据时
- 12 分 23 秒:机器学习算法输入的表示方式和特征选取是十分重要的。
- 13 分 00 秒:很难说什么时候数据才是足够的。尽量基于你所拥有的数据建立模型,进而在模型中添加更多的数据,并对模型改进情况进行观察。当时间或经费不足时,接受当前所得到的模型。
人工智能与围棋
- 14 分 23 秒:在最艰难的比赛之一中,AlphaGo 战胜了最好的人类围棋选手,这是对于机器学习和人工智能领域而言是一个里程碑事件。它标记了人工智能的进展,而非解决了人工智能的问题。
- 15 分 02 秒:为实现这样的结果,AlphaGo 组合使用了已有的技术。它使用蒙特卡洛树进行搜索,从所有可能的走法中随机选择一个。它是一个快速算法。
- 16 分 54 秒:AlphaGo 使用了强化学习、深度学习和围棋大师所下过的棋谱。
深度学习
- 17 分 39 秒:当前深度学习是计算机视觉、语音识别等领域的颠覆性技术。
- 17 分 50 秒:在 2012 年的一个图像识别竞赛中,使用深度学习的方法最终胜出,此后每年深度学习方法都在改进。它已达到了人类的误差水平,对一些类型的图像具有与人类同样的识别能力。
趋势
- 9 分 36 秒:在 ICML 会议所接纳的 332 篇论文中,56 篇是关于神经网络的,这显示了该研究方向的重要性。强化学习及优化表现方向的研究也同样受到重视。
- 18 分 37 秒:将会出现新的深度学习应用。
- 18 分 50 秒:强化学习和情境学习对于处理因果关系是十分重要的技术。
- 20 分 20 秒:机器学习已近乎成为商业化的服务。Amazon、Google、 Microsoft 等公司已经提供了机器学习服务。
其中提到的人士和公司
- 吴恩达
- Yaser S. Abu-Mostafa
- Amazon
- IBM Watson 实验室
- Microsoft 研究院
- Yahoo!
其中提到的产品
关于 QCon 大会
QCon 是由 InfoQ 主办的全球顶级技术盛会,由业内人士推动,专为在团队中影响软件创新的技术团队主管、架构师以及项目经理而设计。QCon 每年的七场大会分别在伦敦、纽约、旧金山、圣保罗、北京、上海和东京召开。QCon 旧金山市大会已经举办到第十届,今年将于 11 月 7 日至 11 日期间举行,届时会有 100 多名业内专家作为演讲嘉宾,并有 1300 名与会者以及 18 个涉及如今推动软件开发发展的专题追踪报道。想要了解更多详情,请参见 qconsf.com 网站。
更多关于播客的信息
你可以通过 RSS 订阅我们的播客,或者通过 SoundCloud 和 iTunes 收听。本页所列出的播客摘要内容均附有可点击链接,点击后可直接切换到音频的相关部分。
查看英文原文: The InfoQ Podcast: John Langford on Vowpal Wabbit, Used by MSN, and Machine Learning in Industry
感谢夏雪对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论