写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007371
用户头像

发布了 1008 篇内容, 共 410.1 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

Instana:如何评价可观察性方案?

行人23

第十三周 数据应用二 作业 「架构师训练营 3 期」

胡云飞

管理笔记 [9]:组织与督导,管理者的两个宝

L3C老司机

28天写作

Nginx加密套件配置不当,造成SSL无法建立连接

运维研习社

nginx zabbix SSL证书 证书监控

面试官一上来就问我Chrome底层原理和HTTP协议(万字长文)

我是哪吒

大前端 后端 chorme 28天写作 2月春节不断更

【STM32】CubeMX+HAL 输出PWM

AXYZdong

硬件 stm32 2月春节不断更

牛启新春|优质文章人气大挑战

InfoQ写作社区官方

热门活动

为行动而读书-《麦肯锡精英高效阅读法》读书笔记

Harris

读书笔记

Jenkins通过OpenSSH实现Windows下的CI/CD

运维研习社

jenkins CI/CD Windows Server 2012 R2

做出赋能其他人的产品是技术牛人最好的证明

刘华Kenneth

敏捷 平台

IO 模型知多少 | 理论篇

圣杰

io

Dart 后台开发 Aqueduct @Column标记

人生如梦

实例详解Linux下ulimit每个参数

运维研习社

Linux ulimit linux系统资源管理 open file

创业公司人力资源体系建设的几点思考

一笑

人力资源 28天写作

Flutter安卓项目第一次启动失败解决方案

人生如梦

flutter

Dart 后台开发 Aqueduct 插入数据 获取数据API

人生如梦

flutter dart

说说规则引擎

张老蔫

28天写作

Dart 后台开发 Aqueduct ORM初始化数据库

人生如梦

Nginx如何监控各server的流量

运维研习社

nginx Prometheus zabbix upstream

抓包带你详解TCP的11种状态

运维研习社

三次握手 四次挥手 TCP/IP 抓包

2021年目标,我打算这样去实现

谙忆

学习 Java 语言,你必须知道的 Java 简史

白色蜗牛

Java spring 程序员

Kafka.03 - Message 介绍

insight

kafka 2月春节不断更

测试技术

牛鬼蛇神VS魑魅魍魉

Dart 后台开发 Aqueduct集成Swagger客户端

人生如梦

flutter dart

关于Linux系统中Message中的Session日志详解

运维研习社

Centos 7

你好,2021~

数据社

程序员 2021年展望

翻译:《实用的Python编程》02_02_Containers

codists

Python 人工智能 容器 后端 数据结构与算法

如何解决Nginx实现动静分离或反向代理时资源路径不匹配

运维研习社

nginx 反向代理 动静分离

一文搞懂Linux下Ulimit资源限制

运维研习社

Linux linux命令 ulimit

为什么做这样一个产品之容量评估篇

数列科技杨德华

28天写作

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章