写点什么

ArchSummit 讲师专访:EMC 研究院资深研究员陶隽谈实时数据分析

  • 2012-07-04
  • 本文字数:1408 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ 中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里

陶隽,EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业,加入EMC 之前,就职于Intel,先后参与BIOS 网络协议栈,Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ:您能介绍一下这次演讲的内容和背景吗?

陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目,介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?

陶隽:需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ:您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗?

陶隽:大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于 MapReduce Batch 模式的系统,典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统,HOP 通过 pipeline 的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式,来自 Yahoo!的 S4 和 Twitter 的 Storm 属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。

InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?

陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。

InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?

陶隽:比如说数据分析中由于采用的 pipeline 或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求, 另外,应用的实施也会基于新的伸缩性和容错性方式。

相关信息

2012-07-04 00:001824
用户头像

发布了 255 篇内容, 共 56.5 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

企业网络安全漏洞多,这些等保服务来填坑

华为云开发者联盟

Web 安全 防火墙 等保 DDoS

Mysql探索之索引详解

不才陈某

MySQL

揭开数组的真面目

Java旅途

Java 数据结构 数组

一篇文章搞懂前端学习方法与构建知识体系

三钻

学习 大前端

区块链技术服务于税收治理的深圳实践

CECBC

区块链 电子发票 税收

甲方日常 3

句子

工作 随笔杂谈 日常

建设开发者生态:6项华为API管理原则落地

华为云开发者联盟

开发者 API 华为云 API Explorer平台 应用技术

Luajit字节码解析之KNUM

whosemario

lua

化妆品行业与区块链的融合可减少甚至消除假冒伪劣

CECBC

区块链 化妆品

架构师训练营第 11周作业和感想

tuuezzy

极客大学架构师训练营

微前端在民生 APaaS/PSET 平台的探索与实践

亻尔可真木奉

大前端 探索与实践 案例分享

Flink-状态后端作用-11

小知识点

scala 大数据 flink

【FCC前端教程】44关学习CSS与CSS3基础「二」

三钻

CSS 大前端 FCC

LeetCode题解:155. 最小栈,单个栈+对象存储,JavaScript,详细注释

Lee Chen

大前端 LeetCode

开发者的福音,LR.NET模块化代码生成器

Philips

敏捷开发 快速开发 模块化流程 代码质量 .net core

抗疫复产,CDN助企业破局发展

华为云开发者联盟

CDN 网络 华为云 CDN加速 企业应用

菜市场和房屋中介

escray

学习 面试

消息队列之推还是拉,RocketMQ 和 Kafka 是如何做的?

yes

kafka RocketMQ

区块链 新基建定位下的新使命 2020新区势

CECBC

区块链 新基建

架构师训练营0期11周

WW

面试官想知道都在这里

escray

学习 面试

初识Druid——实时OLAP系统

justskinny

大数据 Apache Druid

【Elasticsearch 技术分享】—— 十张图带大家看懂 ES 原理 !明白为什么说:ES 是准实时的!

程序员小航

Java elasticsearch 搜索 ES Lucene Elastic Search

安全系列之——数据传输的完整性、私密性、源认证、不可否认性

诸葛小猿

加密解密 rsa 签名验签 数字证书 CA

涵盖多场景区块链与政务结合 应用前景广阔

CECBC

区块链 互联网 数字政务

最强云硬盘来了,让AI模型迭代从1周缩短到1天

华为云开发者联盟

SSD 云存储 All-Flash 云硬盘 擎天架构

如何开成功一个回顾会

研发管理Jojo

敏捷教练 回顾会 引导者

屏幕共享接入指南

anyRTC开发者

WebRTC 在线教育 直播 RTC

穿什么衣服去面试?

escray

学习 面试

并发杂谈系列0 序与目录

八苦-瞿昙

随笔杂谈

oeasy教您玩转linux010107那啥在哪 whereis

o

ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析_数据库_胡键_InfoQ精选文章