报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-10 11:033828
用户头像

发布了 268 篇内容, 共 127.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

区块链数字钱包定制开发,数字货币钱包开发费用

13530558032

第11周作业

赵龙

第11周学习总结

赵龙

跨过语言银河,构筑智能鹊桥:百度NLP的十年、今夕与未来

脑极体

游戏夜读 | 什么才值得纪念?

game1night

沟通是一门艺术

石云升

情绪控制 沟通艺术

架构师第十一周作业及总结

傻傻的帅

微服务编程范式

看山

微服务 范式 签约计划第二季

第二周作业

Vincent

极客时间 作业

架构师训练营 -- 第11周作业

stardust20

悬挂引用是如何被Rust消灭的?

袁承兴

rust 内存模型 指针 引用 泛型

Spring系列篇:Spring容器基本使用及原理

简爱W

架构师训练营第11周作业

Bruce Xiong

Apache 软件基金会顶级项目 Pulsar 达成新里程碑:全球贡献者超 300 位!

Apache Pulsar

Apache Apache Pulsar 消息系统 消息中间件

永续合约交易系统源码开发,合约交易所开发

13530558032

银行热衷拿区块链专利 背后有何意图

CECBC

区块链 银行

微服务的基建工作

看山

微服务 基础设施 签约计划第二季

云算力挖矿平台APP,一站式云算力挖矿系统开发

13530558032

一次开零售店的经历(2)

石云升

零售店

一起学MySQL性能优化

xcbeyond

MySQL 性能优化 MySQL性能优化

开源流数据公司 StreamNative 推出 Pulsar 云服务,推进企业“流优先”进程

Apache Pulsar

Apache Pulsar 消息系统 消息中间件

区块链承兑商支付系统开发,USDT支付软件搭建

13530558032

一次开零售店的经历(1)

石云升

零售店

安全系列之——主流Hash散列算法介绍和使用

诸葛小猿

hash 散列函数 md5 sha1 murmurhash

智能化转型将加速数字经济变革

CECBC

人工智能 数字经济

有益思考一则:框架性思维

石君

学习 方法论

ArCall 升级丨新增多项功能,可支持多人在线语音

anyRTC开发者

音视频 WebRTC 直播 RTC

架构师训练营第十一周作业

张明森

第二周学习总结

Vincent

极客时间 极客大学 作业

论商品促销代码的优雅性

架构师修行之路

架构师训练营第十一周总结

张明森

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章