写点什么

ArchSummit 主题演讲:Ashish Thusoo 介绍大数据发展趋势和 Facebook 的大数据处理平台

  • 2012-07-23
  • 本文字数:1966 字

    阅读完需:约 6 分钟

Ashishi Thusoo 是 Qubole 联合创始人兼 CEO。Qubole 是一个建设云平台进行数据分析和处理的创业企业。在创办 Qubole 之前,ASHISH 负责 Facebook 数据基础设施团队。在他的领导下,团队创造了世界上最大的数据分析与处理平台。该平台实现了公司内部分析师,工程师以及数据科学家得以访问数据的目标。在这一过程中,他帮助推动创造“大数据”部署工具,技术和模板的实现 – 这已经成为主流“大数据”革命的构件。在 Ashish 的协助下,2007 年,他加入 Facebook 时用户只有 5 千万人,当他离开 Facebook 时,用户已经成长到 8 亿人。他也是 Apache Hive 项目的联合创始人,并作为该项目的 Apache 软件基金会的创始副总裁。在 ArchSummit 深圳 2012 大会上,我们也很荣幸邀请到 Ashishi 现场分享,现在报名参加大会可享超低折扣,3 人以上团购享更多优惠。

在这些年从事大数据处理工作的经验中,他总结过以下六点:

  1. 从“该抓哪些数据”转变成“有这么多数据可以做什么”:除了少数状况外,简单的算法搭配大量数据,计算出来的结果远比复杂的算法搭配少量数据更好;这相当类似统计的概念,意即在样本数够大的情况下可以忽略误差。
  2. 尽可能简化分析工具,让普通用户也能使用自如
  3. 大量用户可以让你的分析工具更加完善:第 2 和 3 点相辅相成。当你把分析工具设计得足够简单,一般用户自然乐意使用,而且这些人的加入,会使某些极端的问题一一浮现;例如一个写很烂的查询就会瘫痪整个系统,因此你必须花更多心思另外处理、配置资源,以及管理安全性和权限。
  4. 协作模式同样使用大数据处理:刻意把分析工具设计地带有合作的成分,如此一来当用户分享他们的分析,就会从讨论中得到更多的成果。
  5. 没有一种架构适用所有情况:我们经常在开发的过程中遇到从未见过的问题,与其硬是将它纳入现有的架构,直接设计一个新解决方案会是更好的选择。
  6. 维护服务比开发软件更难:我们花了很多的时间跟心力才让服务正常运作,一方面必须提高系统负载量,同时还要保留弹性,最重要的是要经常监控系统状态是否异常。

在今年的 ArchSummit 深圳 2012 大会上,他将把这六点经验放在融汇于两个演讲之中,包括第一天上午第一个主题演讲,题目是:大数据的技术趋势和演变,在这个演讲中,他将分享:

大数据相关的问题正在变得越来越广泛。很多公司都在面对并试图解决海量数据相关的问题。它几乎充斥了我们的耳朵:传感器和移动设备的不断涌现,产生着越来越多的数据。从根本上说,大数据已经站住脚了,而且正在得到越来越广泛的使用。观察它的演化过程,从 2007 年开始到现在,应该说它颠覆了很多东西,越来越多的人开始尝试。它可以在以下 5 个领域产生巨大影响:创造透明度、通过实验来发现需求和增强绩效、细分人群并采取灵活行动、用自动算法代替或者帮助人工决策、创新商业模式产品和服务。

那么,目前这一代大数据架构的主要驱动力有哪些?这些架构的演化遵循了什么样的路径?未来面临哪些最大的挑战?这些架构将会向什么方向演化?这些都是 Ashish 将会在本演讲中回答的问题。他会分析业界的使用案例,谈谈哪些系统表现出色,哪些系统还不够好。他还会谈及在云上运行这些系统面临的挑战,并就如何克服这些问题提供一些建议。

另外一个演讲,是在第二天下午的“海量数据之快准狠”专题之中,演讲题目是: Facebook 的海量数据架构演变过程,他将会讲到:

作为世界上最大的社交网络,Facebook 公司一天积聚的数据比很多大公司一年产生的数据还要多。 据 2010 年 3 月的博客显示,Facebook 公司的 Hadoop 集群成为世界上最大的计算机集群。这个集群由 2000 台计算机,800 台 16 核系统和 1200 台 8 核系统组成。集群中每个系统存储了大概 12 万亿到 24 万亿字节的数据。

一年前,Facebook 的集群存储了 30 千万亿字节的数据,大概是美国国会图书馆存储信息数量的 3000 倍。Facebook 数据中心在过去一年里增长了三分之一还多。 今年 4 月份,Facebook 耗资 4.5 亿美金建设的新数据中心也已经投入使用。

从 2007 年到 2011 年,Facebook 的大数据处理架构是如何演变的?在一个变动异常频繁,并且快速增长的环境里,都要面临哪些挑战?Facebook 使用了一些组件和技术,让公司大部分部门都可以根据不同的目的访问、分析、使用数据,背后的驱动力是什么?Ashish Thusoo 在本演讲中将会回答这些问题,同时会介绍从 Facebook 的经验中的一些重要收获。

如果您想了解大数据相关技术的发展趋势和具体实践,Ashish Thusoo 的演讲不可错过。

现在个人报名购票可享受 9 折优惠,节省 360 元。团购单位享有更多优惠,ArchSummit 深圳 2012 大会提供针对团队(3 人以上)购票优惠策略。详情请将公司参会信息发邮件至:arch@cn.infoq.com(邮件标题注明“团队购票”),或致电 010-89880682、010-64738142。有关 ArchSummit 全球架构师峰会 2012 的更多信息请访问官方网站: www.ArchSummit.com

2012-07-23 22:042491
用户头像

发布了 479 篇内容, 共 166.1 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

太狠了阿里技术专家撰写的电子版JVM&G1 GC实战,颠覆了传统认知

Java架构之路

Java 程序员 架构 面试 编程语言

9年技术面试官讲解:计算机专业应届生怎样写简历

Java架构师迁哥

云智一体:攀登2021智能经济新山峰

脑极体

在算力“沃土”上,种植互联网下一个奇迹十年

2020年第11期公有云性能评测:盛大云-华东实现“三冠”,百度云虎视眈眈

博睿数据

百度云 腾讯云 阿里云 公有云 华为云

ES6中的Promise和Generator详解

程序那些事

新特性 ES6 Promise 程序那些事 Generator

看完这份文档我吊打了BATJ面试官,他问的我全都会:Spring+逻辑算法+MySQL+Java+Redis+并发编程+JVM+RabbitMQ等

Java架构之路

Java 程序员 架构 面试 编程语言

synchronized 是王的后宫总管,线程是王妃

Java架构师迁哥

校园恋爱新技能:智慧琴房恋爱助攻手册

IoT云工坊

物联网 API sdk 智慧琴房 智慧校园

【变与不变】架构中的边界划定

soolaugust

编程 架构 设计

程序员什么时候就该辞职了?

Java架构师迁哥

让你的产品更懂世界:如何提升场景文本识别中的语言模型

华为云开发者联盟

神经网络 文字 语义

一次资源泄露问题排查纪录

AI乔治

Java 架构 JVM 内存泄漏

LeetCode题解:127. 单词接龙,BFS+生成所有可能新单词再匹配,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

架构师训练营第 1 期第 13 周作业

好吃不贵

极客大学架构师训练营

盘点2020 | 技术圈里的这些热名词

xcbeyond

微服务 DDD 金融科技 新基建 盘点2020

字节跳动总监亲自整理,在知乎高达5716赞的Java开发手记。

Java架构之路

Java 程序员 架构 面试 编程语言

A Guide for Accidental Project Managers

Geek_ed0696

pmp project manager role of PMP PMP Certification greycampus

“懂行人”携手互联网,创造未来无限可能

你确定你会算数吗?老大说:你连这个都不知道还敢面试电商公司?

小Q

Java 学习 编程 程序员 面试

ROS 机器人操作系统进阶实战

Geek_3cc3ec

Python 人工智能 学习 ROS

“懂行”为舟,助互联网驶向“新蓝海”

芯片破壁者(二十二):政府与半导体间的“美国往事”

脑极体

Java 并发编程:volatile能否保证数据的同步

李尚智

Java Java并发

架构师训练营第 1 期第 13 周学习总结

好吃不贵

极客大学架构师训练营

游戏服务器多钱一个月呢?

德胜网络-阳

升级redhat6的yum源替换为centos源

Bruce Xiong

Techo | 大数据专场报名盛启!12月20日欢迎莅临!

腾讯云大数据

大数据 数据仓库

官方活动 | 日更挑战(初阶)——七日更,挑战百元京东E卡!

InfoQ写作社区官方

七日更 热门活动

朋友不讲武德急催我给他Java干货教程,我劝他耗子尾汁并丢给他一份GitHub上标星115k+的Java教程,他看了之后连忙向我道歉!

Java架构之路

Java 程序员 架构 面试 编程语言

免费分享!GitHub标星15k的Java编程思想最新中文版,肝了一周整理成1539页的PDF文档!

Java架构之路

Java 程序员 架构 面试 编程语言

ArchSummit主题演讲:Ashish Thusoo介绍大数据发展趋势和Facebook的大数据处理平台_Meta_郑柯_InfoQ精选文章