写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347171
用户头像

发布了 321 篇内容, 共 120.6 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

Kafka系列8:一网打尽常用脚本及配置,宜收藏落灰!

z小赵

大数据 kafka 实时计算

JavaScript 基础拾遗 —— this 的前世今生

hq

Java 学习 大前端

zabbix 实战指南(2)

橙子冰

zabbix

回“疫”录(25):被颜色攻占的地方

小天同学

疫情 回忆录 现实纪录 纪实

ARTS - Week 1

Khirye

ARTS 打卡计划

spring-data-redis -- 一次执行链路的分析

常清静

Java spring springdataredis

python实现·十大排序算法之堆排序(Heap Sort)

南风以南

Python 排序算法 堆排序

奈学教育:分布式架构,刚性事务-2PC必须注意的问题及3PC详细解说

奈学教育

分布式架构 2PC 3PC

分支管理模式

wiflish

git

变则通,通则久 —— 读《谁动了我的奶酪?》

YoungZY

读书 读书感悟

眼前搁座金山也看不见

池建强

搜索引擎 学习

IDEA 插件开发实战

李孟聊AI

Java 工具 IDEA 插件 idea插件

这个开源神器可快速帮你安装 MacOS 虚拟机!

JackTian

macos GitHub Linux 操作系统 虚拟机

这么多年了,QQ没发现这个问题吗?

BabyKing

ES 操作之批量写-BulkProcessor 原理浅析

常清静

Java elasticsearch 后端

Git 多用户多仓库配置 windows10

halapano

git

算法:时间复杂度和空间复杂度

shirley

算法 时间复杂度

游戏夜读 | 游戏代码之道

game1night

AutoConfigurationImportSelector到底怎么初始化

编号94530

Java spring Spring Boot import

Linux 终端下记不住命令的使用方法?这个开源项目帮你解决。

JackTian

Linux 开源 运维 操作系统 命令

七年老程序员面试经历

代码诗人

一文道尽 Excel 的 Criterion

张利东

Excel

zabbix实战指南(1)

橙子冰

zabbix

重学 Java 设计模式:实战建造者模式

小傅哥

设计模式 小傅哥 重构 代码质量 优化代码

MySQL慢查询优化(线上案例调优)

NotFound9

MySQL 开源 架构 运维 编程语言

Oracle误删数据闪回

阡陌r

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (九)测试驱动开发(TDD)

编程道与术

Java 编程 软件测试 TDD 单元测试

团队快速扩张时期的组织架构演进

Taylor

团队管理 团队协作 团队 团队组织

写给产品经理的信(3):抗压能力需要多强?

punkboy

生涯规划 产品经理 进阶 压力 工作方式

在 Go 中使用并发编程 - 第一部分

TuringTuring

并发编程 线程模型 Go 语言

ARTS week 1

锈蠢刀

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章