写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-10 11:034126
用户头像

发布了 268 篇内容, 共 135.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

电脑误删文件如何恢复?两个方法解决你的困扰

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

从大厂不允许使用 SELECT * 说开去

喵叔

7月日更

浏览器历史难题解决了....

Jackpop

chrome chrome扩展

5款最强且免费的Python IDE

Jackpop

sublime-text vscode #python

程序员跳槽指南

孙叫兽

程序员 跳槽 攻略

Redisson 分布式锁源码 04:可重入锁释放

程序员小航

Java redis 分布式锁 redisson redisson 分布式锁

Rust从0到1-Cargo-Workspaces

rust cargo workspaces

Rust从0到1-Cargo-自定义命令

rust cargo 自定义命令 Custom Commands

Google 宣布 Android APK 退位对鸿蒙意味着什么?|【话题讨论】

老猿Python

android 鸿蒙 Google AAB格式

学习哪门编程语言好,我来回答

实力程序员

网络攻防学习笔记 Day65

穿过生命散发芬芳

网络攻防 7月日更

炫酷!一款有颜又强大的Python工具包

Jackpop

Python 开发工具

Linux之find命令

入门小站

Linux

【LeetCode】点菜展示表Java题解

Albert

算法 LeetCode 7月日更

关于深度学习编译器,这些知识你需要了解一下

华为云开发者联盟

深度学习 tensorflow 编译器 算子开发 深度学习编译器

滴滴出行因违规收集个人信息被下架:必须整治鱼龙混杂的应用市场

石头IT视角

架构实战课-模块1作业

Nullrable

学习

架构实战营 作业 模块一

脉醉

#架构实战营

架构实战营 模块一 作业

一雄

架构实战营 模块一

“无法运行Windows 11”?最靠谱的升级方案来了!

Jackpop

windows windows 11

在线HTTP请求/响应头转JSON工具

入门小站

工具

2022前端面试必备题+答案

buchila11

徒步运动系统开发|徒步运动软件APP开发

写代码是意识流?

卢卡多多

代码规范 意识 7月日更

吴恩达Andrew Ng Coursera学习总结合集,编程作业技巧合集 John 易筋 ARTS 打卡 Week 54

John(易筋)

ARTS 打卡计划

架构实战营 - 模块1 - 微信架构及学生管理系统毕设架构

雪中亮

架构实战营 #架构实战营

AI星海中的“中国空间站”:昇腾如何助力鹏城云脑Ⅱ实现全球领航

脑极体

C++ for Financial Mathematics读书笔记

bobcatzoo

c++ 金融

太好用!教你几招Python魔法方法的妙用

Jackpop

Python 数据分析 后端

开发小技巧之:unicode的排序和正则匹配

程序那些事

Unicode 排序 程序那些事

斗宠大陆APP开发|斗宠大陆软件系统开发

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章