飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

500TB——Facebook 每天收集的数据量

  • 2012-08-27
  • 本文字数:1293 字

    阅读完需:约 4 分钟

InfoQ 在 2010 年的时候曾经发布过一篇新闻《 Facebook 谈 Hadoop、Hive、HBase 和 A/B 测试》,时任 Facebook 的工程副总 Mike Schroepfer 曾谈到当时 Facebook 的数据量产生情况:

  • Facebook 有 4 亿用户,超过一半的用户每天登录
  • 用户花在 Facebook 上的时间,比接近它的 6 个站点所花的时间的总和还多
  • Facebook 用户每个月分享 250 亿的内容信息
  • 5000 亿单月页面浏览量

要处理这样的数据,Facebook 使用了大型的 Hadoop 集群:

  • 存储 36PB 未压缩的数据
  • 有超过 2250 台机器和 23000 个核心
  • 每个机器 32GB 内存
  • 每天处理 80-90TB 数据
  • 该集群每个月有 300-400 的用户,他们每天提交 25000 个任务

在不久前 InfoQ 主办的全球架构师峰会 ArchSummit 上,前 Facebook 数据基础设施团队主管 Ashish Thusoo 做了题为“ Facebook 的海量数据架构演变过程”的演讲,深受大家关注。那么现在 Facebook 的数据量有多大呢?Gigaom 的一篇文章回答了这个问题。

文章开头指出:Facebook 现在的用户数达到 9.5 亿,这些用户的每个动作,包括点击一个通知、访问一个页面、查看一个朋友的链接等等,都会为 Facebook 产生要跟踪的数据。而这 9.5 亿用户平均每个月在 Facebook 上用去的时间超过 6.5 个小时,整个的数据量就可以想见了。

在周三,Facebook 提供了一些他们现在的统计数据:

  • 人们每天分享 25 亿个内容条目,包括状态更新、墙上的帖子、图片、视频和评论
  • 每天有 27 亿个“Like”操作
  • 人们每天上传 3 亿张照片
  • Facebook 最大的 Hadoop(HDFS)集群中,硬盘空间超过 100PB
  • Facebook 使用 Hadoop 查询语言 Hive,每 30 分钟扫描 105TB 数据
  • 数据库中的数据每天增加超过 500TB

Facebook 的基础设施副总 Jay Parkish 指出:

如果你没有利用大数据带来的好处,那么你就没有大数据,你只是有一堆数据而已。我们对一切数据都感兴趣。

Pariksh 还提到:Facebook 一直努力寻找分析和利用数据的更好方法,包括做大量的 A/B 测试,找出网站所有可能的功能变化,并确保网站实时响应用户的输入。

在前面提到的那篇 InfoQ 的新闻中,对 Facebook 的 A/B 测试方法也有所提及:

当 Facebook 计划推出他们的“Like”按钮时,他们担心会不会发生“自相蚕食”的结果——会不会因此反而减少了文字评论,而不是提升了参与度?为了验证这一点,他们运行了 A/B 测试来比较用户行为:给一组用户使用新功能 (Like 按钮),而另一个对照组则没有。他们使用了两组南美国家来进行比较:[哥伦比亚、委内瑞拉] vs [阿根廷、智利]。测试的结果是:使用 Like 按钮的时候评论增加了 4.46%,而对照组的数据则是 0.63%。这一类测试所产生的巨大的数据集正是 Facebook 使用 Hadoop 来处理数据的例子。

Schroepfer 接着给出了另一个例子来说明为什么数据驱动的 A/B 测试这么重要:Facebook 还用同样的方法测试过电子邮件提醒的两种不同的设计。 尽管大多数的人都期望更为图形化更丰富的电子邮件会产出更好的响应率,但与简单的基于文本的电子邮件对比测试时,后者却有着三倍于前者的响应率——这表明了使用数据测试观点而不是依赖直觉所带来的巨大威力。

InfoQ 的读者,如果您所在的公司也使用 A/B 测试来指导产品发布,而不是依赖直觉,欢迎您在评论中分享。

2012-08-27 19:185651
用户头像

发布了 479 篇内容, 共 165.0 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

Docker 实战教程之从入门到提高(二)

汪子熙

Docker 容器 虚拟化 docker image 4月月更

龙蜥社区成立DeepRec SIG,开源大规模稀疏模型深度学习引擎

OpenAnolis小助手

深度学习 开源 龙蜥社区 sig 稀疏模型

Android技术分享| Android 中部分内存泄漏示例及解决方案

anyRTC开发者

音视频 内存 内存泄漏 移动开发 Andriod

解析分布式系统的缓存设计

vivo互联网技术

分布式 服务器 缓存服务

欧拉开发者大会即将开启,全球芯片、整机、软件厂商共建数字基础设施开源操作系统

科技热闻

【PIMF】开源鸿蒙首款IDE低代码入门OpenHarmony应用开发

离北况归

低代码 OpenHarmony Openharmony啃论文俱乐部 OpenHarmony应用开发 可视化界面

云图说丨不同区块链之间如何跨链交互?

华为云开发者联盟

区块链 跨链 可信 可信跨链服务 跨链交互

OpenHarmony 3.1 Beta版本关键特性解析——OpenHarmony图形框架

OpenHarmony开发者

OpenHarmony 动画效果

如何优雅的记录操作日志

flyhero

Java Spring Boot 后端 造轮子 4月月更

“一只股票一张表”, TDengine 在青岛金融研究院量化分析场景中的应用

TDengine

数据库 tdengine 物联网

Linux驱动开发-编写RFID-RC522射频刷卡模块驱动

DS小龙哥

4月月更

云智慧10年资深架构师带你了解:普通程序员向架构师成长必经之路

云智慧AIOps社区

程序人生 架构师 Meetup 晋升 成长计划

企业如何搭建一个有效的知识管理系统

小炮

企业知识管理 企业知识管理工具

Sitemap的重要性

源字节1号

软件开发 网站优化

react源码解析7.Fiber架构

buchila11

React

云效 Projex是什么?Projex企业级高效研发项目管理平台

阿里云云效

阿里云 项目管理 研发 敏捷研发 项目协作

坐实大数据资源调度框架之王,Yarn为何这么牛

华为云开发者联盟

大数据 hadoop mapreduce YARN 资源调度框架

虎符即将引入稳定币USN 并开启USN专场活动

区块链前沿News

虎符交易所 稳定币

大数据培训Hive如何控制map个数与性能调优参数

@零度

hive map 大数据开发

2022南京14届-智慧工地-博览会

InfoQ_caf7dbb9aa8a

java培训SpringBoot自动装配原理

@零度

JAVA开发 springboot

自己动手写Docker系列 -- 5.6实现删除容器

Go Docker 4月月更

react源码解析8.render阶段

buchila11

React

2022南京14届-物联网-博览会

InfoQ_caf7dbb9aa8a

基于Flink-CDC数据同步方案

领创集团Advance Intelligence Group

算法 java

48天打造你的专属 Twilio——浅谈运营商通信中台

网易云信

通信

jackson学习之七:常用Field注解

程序员欣宸

4月月更

如何使用参数化查询提高Cypher查询的性能

华为云开发者联盟

参数化 Cypher查询 华为云图引擎 GES 参数化查询

Thinkphp6实现定时任务功能详解教程

CRMEB

web前端培训nginx配置规则

@零度

nginx 前端开发

2022南京14届-人工智能-博览会

InfoQ_caf7dbb9aa8a

500TB——Facebook每天收集的数据量_软件工程_郑柯_InfoQ精选文章