写点什么

InfoQ 播客:Vowpal Wabbit 在 MSN 以及机器学习在工业界的应用

2016 年 8 月 24 日

本周的 InfoQ 播客内容是 QCon 主席 Wes Reiszt 与机器学习科学家 John Langford 之间的谈话。话题包括 John Langford 所创建的机器学习系统 Vowpal Wabbit。Vowpal Wabbit 设计为特别高效的机器学习系统,其中集成了一些机器学习领域最新算法,并已应用于 MSN 的新闻个性化。他们还讨论了如何在进入到机器学习领域,以及机器学习如何从学术研究中转向工业应用中。

关键要点:

  • Vowpal Wabbit 是一种机器学习系统,力图实现对一些最新的机器学习算法的集成。
  • 如何学习机器学习:选学一到两门课程,熟悉机器学习的理论和实践。
  • 机器学习已从研究领域转向工业实践。在 ICML 会议的九个专题讲座中,其中的四个是来自于工业界。
  • 即使具有了足够的数据,依然难以做到预测。
  • AlphaGo 是人工智能的一个里程碑。它使用了强化学习、深度学习,以及围棋大师的实战棋谱。
  • 当前深度学习是计算机视觉和语音识别等领域的颠覆性技术。
  • 趋势是什么:神经网络、强化学习和情境学习。
  • 机器学习技术正在商品化。

点击播客链接收听

摘要

对 Vowpal Wabbit 的概要描述

  • 1 分 38 秒:Vowpal Wabbit(VW)旨在将最新的机器学习技术集成到算法中。
  • 2 分 04 秒:对于实现从 K 个类别中择一的预测算法,当 K 的数值很大时,现有算法的计算代价很大。为改进该问题,VW 将包含一种称为“回调树”(Recall Tree)的次线性算法。(译者注:相关研究可参考该预发表论文
  • 3 分 08 秒:在单机上 VW 可达百兆数据输入在不到一秒时间内的接收。VW 中的学习算法默认采用的是线性回归方法。相比于朴素贝叶斯方法,线性回归方法更加强大。
  • 3 分 32 秒:VW 使用“实例装配流水线”的方法加速了解析,使得运算时间得到改进。
  • 4 分 04 秒:Langford 也在 Qcon 纽约大会上做了一个介绍 VW 的报告。在报告中,他通过给出一些实例展示了 VW 的工作方式。
  • 4 分 25 秒,VW 已与其它的技术一起应用于个性化新闻推荐系统中的决策服务。
  • 4 分 34 秒:在 MSN 中已部署了基于 VW 构建的新闻推荐系统,该系统的上线已使用户参与度增长了 25%。
  • 4 分 58 秒:事实上,Vowpal Wabbit 是卡通人物猎人埃尔默·福德(Elmer Fudd)称呼兔八哥时的发音(Vorpal Rabbit)。“Vorpal”一词意为“非常地锋利”,出自“无意义的文字游戏”(Jabberwocky)。Jabberwocky 是一首由单词组成的没有特别意义的诗,对诗本身的理解取决于诗中单词的使用方式。“Wabbit”一词来源于电影“Killer Rabbit”,电影讲述一些人在找寻圣杯时遇上了一只十分特别的兔子。

如何走进机器学习

  • 6 分 12 秒:对于机器学习的初学者,Langford 推荐去选学一到两门的课程,他提到了吴恩达的课程,以及 Yaser S. Abu-Mostafa 的课程
  • 6 分 50 秒:为避免犯新手才有的错误,建议应努力去熟悉机器学习的理论。

机器学习实践

  • 7 分 38 秒:相比于十年前而言,机器学习在工业界得到了更广泛的应用。
  • 7 分 58 秒:在 ICML 机器学习国际会议上,来自于工业界的与会者比例很高,九个专题讲座中的四个是来自于工业界,并且是其中最受欢迎的。
  • 8 分 35 秒:机器学习是搜索和广告等工业领域的关键技术。
  • 9 分 00 秒:机器学习已被用于控制中,例如,对种植或灌溉作物最佳时机的决策。

当具备足够的数据时

  • 12 分 23 秒:机器学习算法输入的表示方式和特征选取是十分重要的。
  • 13 分 00 秒:很难说什么时候数据才是足够的。尽量基于你所拥有的数据建立模型,进而在模型中添加更多的数据,并对模型改进情况进行观察。当时间或经费不足时,接受当前所得到的模型。

人工智能与围棋

  • 14 分 23 秒:在最艰难的比赛之一中,AlphaGo 战胜了最好的人类围棋选手,这是对于机器学习和人工智能领域而言是一个里程碑事件。它标记了人工智能的进展,而非解决了人工智能的问题。
  • 15 分 02 秒:为实现这样的结果,AlphaGo 组合使用了已有的技术。它使用蒙特卡洛树进行搜索,从所有可能的走法中随机选择一个。它是一个快速算法。
  • 16 分 54 秒:AlphaGo 使用了强化学习、深度学习和围棋大师所下过的棋谱。

深度学习

  • 17 分 39 秒:当前深度学习是计算机视觉、语音识别等领域的颠覆性技术。
  • 17 分 50 秒:在 2012 年的一个图像识别竞赛中,使用深度学习的方法最终胜出,此后每年深度学习方法都在改进。它已达到了人类的误差水平,对一些类型的图像具有与人类同样的识别能力。

趋势

  • 9 分 36 秒:在 ICML 会议所接纳的 332 篇论文中,56 篇是关于神经网络的,这显示了该研究方向的重要性。强化学习及优化表现方向的研究也同样受到重视。
  • 18 分 37 秒:将会出现新的深度学习应用。
  • 18 分 50 秒:强化学习和情境学习对于处理因果关系是十分重要的技术。
  • 20 分 20 秒:机器学习已近乎成为商业化的服务。Amazon、Google、 Microsoft 等公司已经提供了机器学习服务。

其中提到的人士和公司

其中提到的产品

关于 QCon 大会

QCon 是由 InfoQ 主办的全球顶级技术盛会,由业内人士推动,专为在团队中影响软件创新的技术团队主管、架构师以及项目经理而设计。QCon 每年的七场大会分别在伦敦、纽约、旧金山、圣保罗、北京、上海和东京召开。QCon 旧金山市大会已经举办到第十届,今年将于 11 月 7 日至 11 日期间举行,届时会有 100 多名业内专家作为演讲嘉宾,并有 1300 名与会者以及 18 个涉及如今推动软件开发发展的专题追踪报道。想要了解更多详情,请参见 qconsf.com 网站。

更多关于播客的信息

你可以通过 RSS 订阅我们的播客,或者通过 SoundCloud iTunes 收听。本页所列出的播客摘要内容均附有可点击链接,点击后可直接切换到音频的相关部分。

查看英文原文: The InfoQ Podcast: John Langford on Vowpal Wabbit, Used by MSN, and Machine Learning in Industry


感谢夏雪对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016 年 8 月 24 日 19:021425
用户头像

发布了 226 篇内容, 共 60.5 次阅读, 收获喜欢 16 次。

关注

评论

发布
暂无评论
发现更多内容

独家揭秘 | 京东物流Elasticsearch大规模“迁移上云”实践

京东科技开发者

云计算

架构一期第五周作业

Airs

阿里云盘线下交流会

兔2🐰🍃

阿里云网盘 Teambition 线下体验

架构师训练营 - 第 5 周课后作业(1 期)

Pudding

架构训练营 - 第5周课后作业 - 学习总结

Pudding

10月24日,“网安小酒馆”线上活动开启,有红包,更有名酒相送

Cloudaemon

区块链数字货币交易所开发,交易系统搭建方案

WX13823153201

5. Bean Validation声明式验证四大级别:字段、属性、容器元素、类

YourBatman

Hibernate-Validator Bean Validation 数据校验

一致性hash

袭望

间隔重排序链表Reorder List,iOS架构RxSwift, VIPER,MVVM,MVP, 机器学习,SageMaker,John 易筋 ARTS 打卡 Week 23

John(易筋)

学习 ARTS 打卡计划 重新排列链表算法 iOS 架构RxSwift SageMaker

week-5-part2 学习总结

陈龙

低代码开发平台,真的是为了“干掉“程序员嘛?

力软.net/java开发平台

软件开发 低代码

架构师训练营第 1 期第 5 周作业

du tiezheng

极客大学架构师训练营

Week 5 作业02

Croesus

SpringBoot整合原生OpenFegin的坑(非SpringCloud)

冰河

微服务 高并发 远程调用 springboot OpenFegin

Go发起HTTP2.0请求流程分析(后篇)——标头压缩

Gopher指北

golang 后端开发 HTTP2.0

iOS touch事件点的获取

teoking

ios

week-5-part1 java实现一致性 hash 算法

陈龙

第五周学习心得

熊桂平

极客大学架构师训练营

【架构师训练营 1 期】第五周学习总结

诺乐

Docker内部组件

混沌畅想

Docker 容器 运维

第5周作业

paul

【架构师训练营 1 期】第五周作业

诺乐

Consistent Hashing算法实现 - JavaScript

万字长文深入理解java中的集合-附PDF下载

程序那些事

java编程 JAVA集合 java集合总结 java集合使用 java秘籍

环信入选2020在线教育视频云创新排行TOP10

DT极客

配置企业应用业务流程别头大,有工作流引擎就不怕

Marilyn

敏捷开发

第五周作业

熊桂平

极客大学架构师训练营

超越视觉支持语音新版OpenVINO发布,为更多智能边缘开发者赋能

intel001

非阻塞的无界线程安全队列 —— ConcurrentLinkedQueue

程序员小航

Java 源码 并发 源码阅读 JUC

一文快速入门分库分表中间件 Sharding-JDBC (必修课)

程序员内点事

Java 分库分表

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

InfoQ播客:Vowpal Wabbit在MSN以及机器学习在工业界的应用-InfoQ