写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347259
用户头像

发布了 321 篇内容, 共 123.4 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

分布式事务揭秘

中原银行

分布式 分布式事务 云原生 中原银行

一文简述:云端架构的演变过程

穿过生命散发芬芳

3月月更

昇思MindSpore行至2022,开源社区成就生态共赢

科技热闻

华为公布终端云最新数据:终端全球月活用户超过7.3亿

叶落便知秋

华为

固定资产管理系统的主要功能和优点

低代码小观

低代码 企业管理 资产管理 企业管理系统 CRM系统

Linux内核权限提升漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

深度确定性策略梯度(DDPG)

行者AI

云效流水线 Flow 是什么?为什么选择云效「Flow」

阿里云云效

阿里云 云原生 持续交付 研发 云效流水线 Flow

《2021年IT行业项目管理调查报告》重磅发布!

禅道项目管理

项目管理 DevOps 加班

Apache Flink 在翼支付的实践应用

Apache Flink

大数据 flink 编程 流计算 实时计算

优酷播放黑科技 | 自由视角技术的全链路策略与落地实践

阿里巴巴终端技术

客户端 音视频技术 视频技术

星河标杆案例 | 洞见科技与智慧齐鲁「基于隐私计算的省级公共数据开放平台建设」实践

洞见科技

隐私计算 数据流通

浅谈外挂常识和如何防御

行者AI

下一代对话系统中的关键技术

硬科技星球

基于Prometheus的企业级监控体系探索与实践

中原银行

分布式 微服务 云原生 Prometheus 中原银行

私有化部署是什么意思?企业私有化部署的几种类型和利弊分析

BeeWorks

国产化浪潮下TiDB解决的痛点问题

TiDB 社区干货传送门

关于在hive任务中number of reducers的探讨

编程江湖

一张图看懂全球最新DDoS攻击趋势

科技热闻

低代码实现探索(三十九)组件库的开发

零道云-混合式低代码平台

不后悔的星期四,明道云首次全网公开直播零代码训练营

明道云

Apache Shiro Realm实战及认证授权源码解读

编程江湖

区块链中的共识机制简介

中原银行

区块链 中原银行

《中国金融科技与数字普惠金融发展报告(2022)》发布 十大趋势研判未来行业发展

BeeWorks

模块1 作业

KennyQ

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据平台

字节跳动 实时数仓 Hudi

阿里云智能编码插件,Cosy文档搜索上新了

阿里云云效

阿里云 代码管理 代码库 阿里云智能编码插件 Cosy

协同·转型·智慧,WorkPlus移动平台帮助企业走好数字化转型之路

BeeWorks

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Apache Flink

大数据 flink 编程 流计算 实时计算

一起来DIVE!在基础软件知识海洋遨游,还能赢取万元奖品!

InfoQ写作社区官方

热门活动 DIVE

数字化转型-基本认知

Geek_XOXO

数字化转型

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章