写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347110
用户头像

发布了 321 篇内容, 共 118.8 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

西部数据正式公布11磁碟架构超大容量HDD, 满足日益增长的近线存储需求

Geek_2d6073

DMSM 2024 峰会倒计时,议程已敲定

财见

Syntax Systems收购Argon Supply Chain Solutions

财见

GPTs及Assistant API快速开发AI应用实战

陆通

Python爬虫实战:利用青果代理IP获取跨境电商数据

袁袁袁袁满

Python 代理IP 跨境电商 爬虫实战

华为,让数智之风从海湾吹拂全球

脑极体

AI

“AI视频通话”产品化的三条路

脑极体

AI

Dockerfile解析

百度搜索:蓝易云

centos设置允许访问的ip

百度搜索:蓝易云

“团队敏捷教练进阶课程” 12月14-15日 · A-CSM认证周末班

ShineScrum捷行

Unity《2024 年移动游戏增长与变现报告》发布,了解最新增长和变现趋势

Geek_2d6073

当机器人猛刷全网一半流量,是时候请出芯盾时代智能人机识别系统了

芯盾时代

机器学习 验证码 零信任

Mac Git客户端工具 SourceTree破解补丁 及详细安装教程 SourceTree中文免登陆版

理理

测试团队协作靠什么?9款工具帮你搞定

爱吃小舅的鱼

团队协作工具

2024年科研团队协作用什么软件?8款精选推荐

爱吃小舅的鱼

科研团队协作

《使用Gin框架构建分布式应用》阅读笔记:p52-p76

codists

golang gin框架 编程人

Linux JAVA环境的搭建tomcat的部署

百度搜索:蓝易云

NIFI使用InvokeHTTP发送http请求

百度搜索:蓝易云

Ubuntu上安装libvirtd

百度搜索:蓝易云

企业如何挑选产研协作工具?9个系统推荐

爱吃小舅的鱼

产研协作工具

团队协作工具怎么选?8款轻量级系统分析

爱吃小舅的鱼

团队协作工具

走出软件作坊,数睿数据打造智能软件工厂,提高软件生产力

财见

测试用例设计方法六脉神剑——第一剑:入门试招,等价边界初探

京东科技开发者

提升团队协作?看看这9款任务工具

爱吃小舅的鱼

协作软件

探索淘宝商品评论API:掌握产品迭代后的用户心声

代码忍者

pinduoduo API API 性能测试

02.工厂模式设计思想

杨充

时间复杂度为 O(n^2) 的排序算法

京东科技开发者

springboot的项目如何既要用jar包启动,同时还可以为不同的机房设置不同的配置文件

京东科技开发者

《寻觅意义》读后感

FunTester

AppsFlyer:应用拉新广告支出上涨,推动头部媒体渠道重现增长

财见

3D科学计算理念驱动下的超级计算机,加速新材料研发

新消费日报

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章