写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-10 11:034195
用户头像

发布了 268 篇内容, 共 137.5 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

智能制造:项目管理的那些事儿

积木链小链

项目管理 数字化 智能制造

可观测性探索系列一:如何赋能运维数据治理

日志易

运维 可观测性平台

数字先锋 | AI+政务,轻松跨语种!霍尔果斯政务服务升级蜕变

天翼云开发者社区

政务 智能化转型 DeepSeek

2025国内比较成熟的SD-WAN服务商有哪些?

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商 SD-WAN厂商 SD-WAN厂家

IDS 和 IPS 日志监控的重要性

运维有小邓

ips IDS 日志审计系统 日志管理系统

TiDB 观测性解读(一)丨索引观测:快速识别无用索引与低效索引

PingCAP

TiDB 索引优化 数据库·

和鲸走入同济大学校园,从 GPT 到 DeepSeek,共启 AI 通识课新篇章

ModelWhale

人工智能 大数据 DeepSeek v3

【硬核测评】AI 代码生成工具准确率提升不止于 30%!

飞算JavaAI开发助手

AI 编程工具哪家强?5 款主流 AI 代码生成工具横向测评

飞算JavaAI开发助手

Spring Boot + CRaC 启动速度提升了10倍!

Geek_e3e86e

Java 编程

国产数据库高光时刻!天翼云TeleDB荣登TPC-DS全球测评总榜第二

极客天地

字符编码:从基础到乱码解决

不在线第一只蜗牛

qt 字符

5个小妙招,通义灵码“一键治愈”你的代码问题

阿里巴巴云原生

阿里云 云原生 通义灵码 AI程序员

低代码是成本 “屠夫”?用过发现果然名不虚传

秃头小帅oi

支持百万人超大群聊的Web端IM架构设计与实践

JackJiang

网络编程 即时通讯 IM

2025年智能工单管理系统产品推荐

云智慧AIOps社区

ITSM ITSM软件 工单管理 工单系统 智能工单

5个小妙招,通义灵码“一键治愈”你的代码问题

阿里云云效

阿里云 云原生 通义灵码

解放军总医院医学创新研究部刘晓莉实录分享(上):多模态生物医学数据利用

ModelWhale

人工智能 大数据 医疗

打工人速看! "反卷神器"的飞算JavaAI,月均加班减少30小时

飞算JavaAI开发助手

智能制造:构筑网络新安全“智”造

积木链小链

网络安全 数字化 智能制造

DeepSeek:原理揭秘与水平评估。看DeepSeek如何回答?

天津汇柏科技有限公司

AI DeepSeek

解放军总医院医学创新研究部刘晓莉分享实录(下):常见开源生物医学数据集简介

ModelWhale

人工智能 大数据 医疗 人工智能大数据 医工融合

国产数据库高光时刻!天翼云TeleDB荣登TPC-DS全球测评总榜第二

天翼云开发者社区

数据库 云计算

得物 Android Crash 治理实践

得物技术

android 后端

共探 AI 气象新未来:和鲸科技出席秦皇岛气象局“人工智能大语言模型应用交流会”

ModelWhale

人工智能 大数据 气象

一文解读MySQL Query Cache使用与实现

华为云开发者联盟

数据库 查询缓存 #Mysql TaurusDB

Netty基础—基础网络协议

不在线第一只蜗牛

Netty 网络协议

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章