写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007225
用户头像

发布了 1008 篇内容, 共 393.0 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

第三周作业一

dll

为什么有了SOA,我们还用微服务?

架构师修行之路

微服务

spring-boot-route(十四)整合Kafka

Java旅途

Java kafka Spring Boot

Kubeless 如何基于 CPU 自动伸缩? | 玩转 Kubeless

donghui

Serverless kubeless

甲方日常 28

句子

工作 随笔杂谈 日常

并发和Read-copy update(RCU)

程序那些事

并发 并发和RCU RCU

区块链 | 最火的七大职业了解一下

CECBC

区块链技术人才

中国银行正式启动区块链产业金融服务项目 ​

CECBC

区块链 金融 金融服务

典型的大型互联网系统使用了哪些技术方案和手段,主要解决什么问题?

极客海

再看传记:试图进入和理解他人的生活

Nydia

Spring 学习笔记(二)Spring中的一些概念

无语

Spring Framework

一个草根的日常杂碎(10月6日)

刘新吾

随笔杂谈 生活记录 社会百态

Java 中的Exception 有什么用?

Braisdom

Java Exception

高难度对话读书笔记——聆听篇2

wo是一棵草

【第四周】系统架构

云龙

CPU 执行程序的秘密,藏在了这 15 张图里

Java架构师迁哥

汇编入门第一篇,小白也能看懂

苹果看辽宁体育

后端 计算机 汇编

我的openEuler社区参与之旅

openEuler

Linux 开源 操作系统 openEuler

做好微服务架构,并非易事!!

架构师修行之路

微服务

一个草根的日常杂碎(10月8日)

刘新吾

随笔杂谈 生活记录 社会百态

十一长假我肝了这本超硬核PDF,现决定开源!!

冰河

项目管理 jenkins 互联网工程 持续发布

读10x程序员有感。

杨鹏Geek

程序员 10X工作法

翻译之深入注释俄罗斯民间故事的语料库,以实现对俄罗斯形式主义理论的机器学习

AI代笔

TensorFlow 篇 | TensorFlow 2.x 模型 Serving 服务

Alex

tensorflow keras tensorflow serving model serving

终于我用JOL打破了你对java对象的所有想象

程序那些事

JOL java对象分析 对象空间占用 java对象

MySQL-技术专题-MySQL的索引

洛神灬殇

个人数字人民币钱包即将亮相

CECBC

央行 数字人民币

服务器的发展历史

德胜网络-阳

一个草根的日常杂碎(10月7日)

刘新吾

随笔杂谈 生活记录 社会百态

架构师训练营 1 期第 4 周:系统架构 - 总结

piercebn

极客大学架构师训练营

涂鸦红外物联网设备开箱使用

良知犹存

物联网 测评

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章