写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007340
用户头像

发布了 1008 篇内容, 共 406.6 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

REST API 设计:HTTP 请求参数的最佳实践指南

Apifox

程序员 前端 HTTP API REST API

在Mac上配置和使用HDC工具的指南

彭康佳

鸿蒙 hdc

自动化技术如何影响企业数据分析的发展

智达方通

数据分析 自动化 财务管理 财务规划

Linux 文件传输利器:SCP 和 LRZSZ

左诗右码

Shell

7thonline第七在线受邀出席零售业卓越运营联盟(COER)2024

第七在线

轻松畅游VR世界,无需高配置|点量实时云渲染技术

点量实时云渲染

vr 云渲染平台 3D实时云渲染 VR虚拟现实 实时渲染云虚拟仿真

哈啰集团全面接入通义灵码,AI 生成代码占比 20%,研发提效 12%

阿里云云效

阿里云 云原生 通义灵码

基于Caffe ResNet-50网络实现图片分类(视频解码+同步推理)

x

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS xFusion (超聚变) FusionServer 定制版

sysin

macos esxi 超聚变 OEM BIOS

样例体验一之图片解码缩放与同步推理

x

代币开发衍生生态:从DApp到链游,NFT,DeFi和交易所的全面解析

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

淘宝/天猫获得淘宝商品详情高级版 API

技术冰糖葫芦

api 网关 API Explorer api 货币化 API 文档 pinduoduo API

全新升级!昇腾AI原生创新算子挑战赛(S2赛季)等你来挑战

新消费日报

哈啰集团全面接入通义灵码,AI 生成代码占比 20%,研发提效 12%

阿里巴巴云原生

阿里云 云原生 通义灵码 哈啰

JDK11升级JDK17最全实践干货来了

京东科技开发者

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS Huawei (华为) FusionServer 定制版

sysin

macos 华为 esxi OEM BIOS

抢占职场C位!全栈开发与测试开发定向就业班助你快速就业

测试人

软件测试

谷歌、Meta、Claude、Perplexity都在争取与苹果AI整合;阿里联合华东师大发布AI视频工具|AI日报

可信AI进展

#人工智能

软件测试学习笔记丨JUnit5嵌套测试

测试人

软件测试

户外LED显示屏:用科技提升城市档次

Dylan

技术 LED LED显示屏 全彩LED显示屏 led显示屏厂家

第56期 | GPTSecurity周报

云起无垠

心大陆AI大模型入选IDC“中国生成式AI市场图谱”

心大陆多智能体

人工智能 AI 大模型 心理健康 数字心理

JDK8升级JDK11最全实践干货来了

京东科技开发者

一文读懂Partisia Blockchain的MPC方案,为医疗领域发展赋能

西柚子

威士顿携手 TDengine,共同推动工业数据处理效率提升

TDengine

数据库 tdengine 时序数据库

淘宝商品评论数据采集丨淘宝商品评论数据接口Taobao.item_review

tbapi

淘宝商品评论数据接口 淘宝评论API接口 淘宝商品评论数据

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章