写点什么

500TB——Facebook 每天收集的数据量

  • 2012-08-27
  • 本文字数:1293 字

    阅读完需:约 4 分钟

InfoQ 在 2010 年的时候曾经发布过一篇新闻《 Facebook 谈 Hadoop、Hive、HBase 和 A/B 测试》,时任 Facebook 的工程副总 Mike Schroepfer 曾谈到当时 Facebook 的数据量产生情况:

  • Facebook 有 4 亿用户,超过一半的用户每天登录
  • 用户花在 Facebook 上的时间,比接近它的 6 个站点所花的时间的总和还多
  • Facebook 用户每个月分享 250 亿的内容信息
  • 5000 亿单月页面浏览量

要处理这样的数据,Facebook 使用了大型的 Hadoop 集群:

  • 存储 36PB 未压缩的数据
  • 有超过 2250 台机器和 23000 个核心
  • 每个机器 32GB 内存
  • 每天处理 80-90TB 数据
  • 该集群每个月有 300-400 的用户,他们每天提交 25000 个任务

在不久前 InfoQ 主办的全球架构师峰会 ArchSummit 上,前 Facebook 数据基础设施团队主管 Ashish Thusoo 做了题为“ Facebook 的海量数据架构演变过程”的演讲,深受大家关注。那么现在 Facebook 的数据量有多大呢?Gigaom 的一篇文章回答了这个问题。

文章开头指出:Facebook 现在的用户数达到 9.5 亿,这些用户的每个动作,包括点击一个通知、访问一个页面、查看一个朋友的链接等等,都会为 Facebook 产生要跟踪的数据。而这 9.5 亿用户平均每个月在 Facebook 上用去的时间超过 6.5 个小时,整个的数据量就可以想见了。

在周三,Facebook 提供了一些他们现在的统计数据:

  • 人们每天分享 25 亿个内容条目,包括状态更新、墙上的帖子、图片、视频和评论
  • 每天有 27 亿个“Like”操作
  • 人们每天上传 3 亿张照片
  • Facebook 最大的 Hadoop(HDFS)集群中,硬盘空间超过 100PB
  • Facebook 使用 Hadoop 查询语言 Hive,每 30 分钟扫描 105TB 数据
  • 数据库中的数据每天增加超过 500TB

Facebook 的基础设施副总 Jay Parkish 指出:

如果你没有利用大数据带来的好处,那么你就没有大数据,你只是有一堆数据而已。我们对一切数据都感兴趣。

Pariksh 还提到:Facebook 一直努力寻找分析和利用数据的更好方法,包括做大量的 A/B 测试,找出网站所有可能的功能变化,并确保网站实时响应用户的输入。

在前面提到的那篇 InfoQ 的新闻中,对 Facebook 的 A/B 测试方法也有所提及:

当 Facebook 计划推出他们的“Like”按钮时,他们担心会不会发生“自相蚕食”的结果——会不会因此反而减少了文字评论,而不是提升了参与度?为了验证这一点,他们运行了 A/B 测试来比较用户行为:给一组用户使用新功能 (Like 按钮),而另一个对照组则没有。他们使用了两组南美国家来进行比较:[哥伦比亚、委内瑞拉] vs [阿根廷、智利]。测试的结果是:使用 Like 按钮的时候评论增加了 4.46%,而对照组的数据则是 0.63%。这一类测试所产生的巨大的数据集正是 Facebook 使用 Hadoop 来处理数据的例子。

Schroepfer 接着给出了另一个例子来说明为什么数据驱动的 A/B 测试这么重要:Facebook 还用同样的方法测试过电子邮件提醒的两种不同的设计。 尽管大多数的人都期望更为图形化更丰富的电子邮件会产出更好的响应率,但与简单的基于文本的电子邮件对比测试时,后者却有着三倍于前者的响应率——这表明了使用数据测试观点而不是依赖直觉所带来的巨大威力。

InfoQ 的读者,如果您所在的公司也使用 A/B 测试来指导产品发布,而不是依赖直觉,欢迎您在评论中分享。

2012-08-27 19:185697
用户头像

发布了 479 篇内容, 共 166.5 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

站在数字化风口,工装企业如何"飞起来"

华为云开发者联盟

云计算 低代码 开发 华为云

天天预约排队助手|使用手册

天天预约

小程序 SaaS 排队 生活服务工具 使用手册

Hoo虎符研究院|6月上半月区块链行业投资机构动向

区块链前沿News

Hoo虎符 Hoo

云堡垒机分布式集群部署优缺点简单说明-行云管家

行云管家

云计算 网络安全 堡垒机 云堡垒机

进击的程序员,如何提升研发效能?|直播预告

万事ONES

NFT卡牌链游系统开发详情分析

开发微hkkf5566

MAUI与Blazor共享一套UI,媲美Flutter,实现Windows、macOS、Android、iOS、Web通用UI

沙漠尽头的狼

C# MAUI Blazor Blazor Server Blazor WebAssembly 跨平台UI

Ares阿瑞斯i质押LP挖矿众筹模式dapp智能合约定制

开发微hkkf5566

2022年Q1手机银行用户规模达6.5亿,加强ESG个人金融产品创新

易观分析

手机银行

3M互助智能合约系统开发搭建技术

薇電13242772558

智能合约

不容错过的2大直播!Linux应用运行抖动的背后&身临其境体验Anolis OS|第25-26期

OpenAnolis小助手

Linux 开源 操作系统 直播 龙蜥大讲堂

《网络是怎么样连接的》读书笔记 - FTTH

懒时小窝

网络编程

中国游戏的“外卷”大时代,中小厂商如何破解出海难题?

极客天地

招募令|数据可视化开发平台“FlyFish”「超级体验官」招募啦!

云智慧AIOps社区

前端 前端开发 低代码 数据可视化 可视化开发

Uniswap去中心化交易所系统开发方案

开发微hkkf5566

GraalVM 与 Spring Native 项目实现链路可观测

观测云

撰写有效帮助文档的7大秘诀

小炮

去中心化挖矿LP流动性DAPP系统开发案例

开发微hkkf5566

既不是研发顶尖高手,也不是销售大牛,为何偏偏获得 2 万 RMB 的首个涛思文化奖?

TDengine

数据库 tdengine 时序数据库

更新视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

为什么要做茶叶商城小程序app开发?

开源直播系统源码

软件开发 一对一源码 小程序商城

北京web前端培训 | React全家桶之入门介绍

@零度

React web前端开发

云原生监控系统·夜莺近期新功能一览,解决多个生产痛点

巴辉特

云原生 Prometheus Nightingale 运维监控

大数据培训flink之电商用户行为项目整体介绍

@零度

flink 大数据开发

依靠可信AI的鲁棒性有效识别深度伪造,帮助银行对抗身份欺诈

易观分析

AI

智能制造的下一站:云原生+边缘计算双轮驱动

York

云原生 边缘计算 工业互联网 云边端协同

Vue-16-表单绑定

Python研究所

6月月更

AutoK3s v0.5.0 发布 延续简约和友好

Rancher

Kubernetes k8s rancher

容器云是什么意思?与堡垒机有什么区别?

行云管家

云计算 运维 容器云 堡垒机 IT运维

集成底座方案演示说明

agileai

集成底座 企业服务总线 统一身份管理平台 主数据管理平台 方案演示

华为云发布桌面IDE-CodeArts

华为云开发者联盟

云计算 开发工具 华为云 代码补全

500TB——Facebook每天收集的数据量_软件工程_郑柯_InfoQ精选文章