写点什么

Structure Big Data 揭示 Hadoop 未来:DataStax Brisk,EMC 和 MapR

2011 年 3 月 31 日

关于新版 Hadoop 的新闻和流言充斥着整个 Structure Big Data 会议。在以 MapReduce 为主题的小组讨论上, DataStax 宣布 Brisk ,这款产品基于 Hadoop 构建,但是它却使用了 Cassandra 而不是默认的 HDFS 作为文件系统来存储数据。同时,EMC 制作了一整页的广告来宣传名为“05.09.11.EMC Greenplum. Apache Hadoop”的大会项目。而大会的主持人 GigaOm 则撰写了一篇文章探索隐式模式的MapR 技术,表示“这是构建Hadoop 的私有版本,而且很可能今年晚些时候会公诸于众”。大会闭幕后的一天被命名为“年度创新者”日,当日Cloudera 工程师Todd Lipcon 在EclipseCon 的一个主题上介绍了Hadoop。

GigaOm 认为 MapR 是:

构建一个 HDFS 的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无 NameNode 单点故障(SPOF),并且在 API 上和兼容,所以可以考虑将其作为替代方案。

DataStax(前身是 Riptano)提供对 Cassandra 及其商业产品的支持,例如最近发布的管理工具 OpsCenter 。在产品介绍大会上,BenWerther 认为 Brisk 是受到了例如 Netflix 这样的客户的启发。Netflix 将所有的流数据都存储在 Cassandra 里面,而且 Netflix 也是使用 Hive 进行数据分析的重要用户之一。他也提到了 Netflix 希望能够和 Hive 的 ClickStream 数据查询结果直接交互,而不会产生 ETL 延迟。Werther 告知 InfoQ 他们会在 45 天之内发布 Brisk,届时由 DataStax 将会提供商业支持。他同样也宣传了 OpsCenter,表示这个工具将支持多数据中心管理,冗余数据以及基本的 Hadoop 监控。此外,Werther 还介绍了 Twitter 的 Rainbird 项目将会开源,这是一个基于 Cassandra 的实时计数分析项目。

Brisk 将是基于 Apache Hadoop 20.2,并且包括以下特性:

  • CassandraFS 数据系统,它高度兼容 Hadoop,并且使用 Cassandra 存储数据。
  • 兼容 Hadoop 任务的输入和输出格式,并且能够操作 Cassandra 列族。
  • Hive 支持从 Cassandra 中读取和存储数据,并且允许将数据从宽行转为多个窄行。
  • 升级 JobTracker;(JT)以支持自动重启故障节点。但是 Werther 表示,Brisk 并不在内存中永久保存 JobTracker 的状态,所以当 Brisk 启动一个新 JT 的时候,正在运行的任务可能无法完成
  • 预置的配置项:Werther 向 InfoQ 介绍,DataStax 将会使用一些预定义的标志来简化流程,于是 Cassandra 可以以实时或者 Hadoop 的形式启动。

Cassandra 本质上是结合了 Dynamo 架构的 BigTable 。最开始是 Facebook 创建并且将 Cassandra 开源,但是大多数贡献者却是来自于 DataStax,其中就包括项目主席和公司的创始人之一 JonathanEllis。而现在 DataStax 不再雇佣 Hadoop 贡献者。Cassandra 支持多数据中心的数据冗余,范围扫描,数据存储的分离列族,而且最近还添加了二级索引支持,以及在多个冗余组中冗余数据,这样可以允许在不干扰产品运行的情况下对数据进行分析。

InfoQ 询问了 Werther 关于 Cassandra 的成熟度以及它与 HBase 的对比情况。尤其当我们看到作为 Cassandra 的创建者,Facebook 却使用了 HBase 来进行大规模消息服务实时分析,这愈发让我们感到困惑和好奇。就此问题,他首先表示Hadoop 有非常庞大的社区,而HBase 的却非常微型,连Cassandra 的社区都比HBase 要庞大,而且有更多的动力。DataStax 使用修复的bug 数目,积压的未修复bug,社区讨论以及下载数作为比较一款开源软件使用量的标准。当提及InfoQ 关于过去Cassandra 部署的一些问题的时候(例如Digg 曾经面对的),Werther 说&ldquo 快速成熟&rdquo 技术有时候太早或者错误地使用,但是他们仍然有大量成功的客户案例,例如Cisco,Rackspace,ConstantContact,RealNetwork 和Netflix。Werther 也提到了由于Facebook 向HBase 做出一些投资,所以它更倾向于使用HBase,而且对存储一致性的争论是完全没必要的,因为Cassandra 对最终一致性的支持情况是可配置的,用户可以在强一致性的情况下运行。

Werther 曾经说过 Brisk 仍然是在内部测试中,没有任何的测试用户,因此 InfoQ 询问了 Cassandra 的大规模使用问题。Werther 说最大规模的部署是一个政府部门的大概 700 个节点的集群。在事务处理能力上,他说 Twitter 每秒要运行 200000 写请求来接收数据。而在数据存储上,他说有一些集群存储了约莫数百个 TB 的数据。

InfoQ 采访了 Werther 和首席工程师 Jake Luciani,询问了 Brisk 的架构和作为文件系统的 CassandraFS 的实现。我们在此对 HDFS 及其可能的改进版本,还有 CassandraFS 的一些关键的区别列在下表中:

当前版本 HDFS 可能改进 CassandraFS NameNode(NN)是单点故障(SPOF) 一些改善和消除 NNSPOF 的方法正在开发中。 CassandraFS 将数据存储在 Cassandra 中,没有 SPOF。 文件元数据保存在 RAM 中的单个进程中,限制了文件总数 结合 HDFS 和 BookKeeper 是一个调节数据存储能力的方法,不过正在开发中。 CassandraFS 提供了可视化的无限文件调整。 不支持 WAN 数据冗余 不支持 WAN 数据冗余 Cassandra 支持多数据中心数据冗余 支持数据追加(在 Cloudera Distribution for Hadoop 3 和 Apache Hadoop 0.21) 不可用 设计之初就支持追加功能,不过第一个版本并不支持,因为 HDFS 追加功能本来是用于支持 HBase 的,这个功能的开发很有难度从技术上来说,CassandraFS 创建了一个将其路径作为 key 的表,并且将 inodes 以及一些元数据,例如文件拥有者,权限和块数据作为值。而且还有另外一张表,使用块的 id 作为 key,而序列化的块作为值。

Werther 提到 Brisk 也可以和其他的 Hadoop 周边代码共存。并且回应了 InfoQ 的关于客户如何加载非 Cassandra 的日志数据,他说客户可以使用 Cloudera Flume,这个工具已经验证可以和 Brisk 一起使用。同时,Wether 也提到了 Cloudera Hue ,表示这个基于浏览器的用户界面同样也可以和 Brisk 共存。

2011 年 3 月 31 日 21:283139
用户头像

发布了 90 篇内容, 共 27.9 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
  • 62|Apache Hive 集成

    2020 年 11 月 12 日

  • Julien Nioche 谈 Apache Nutch 2 的特性及产品路线图

    开源的Web搜索框架Apache Nutch的2.1版本已于2012年10月5日发布,该版本的新特性包括:支持一些改进属性,用于更好地配置Solr;更新到各个Gora依赖;可以选择构建弹性搜索中的索引。Nutch既可以运行在单台服务器上,也可以用作大规模抓取平台运行在Hadoop集群上。InfoQ采访了Apache Nutch项目的副总裁Julien Nioche,他也是DigitalPebble Ltd的主管。他将于2012年11月7日在Apache Conference Europe上介绍如何使用Nutch框架进行大规模抓取。

  • 安全有效地输出价值:大数据是这个游戏的名字

    本文主要介绍了如何将Hadoop和大数据生态圈的各部分重要组件有机地联系在一起去创建一个能够支撑批处理、交互式和实时分析工作的大数据平台系统。其中,我们重点尝试从计算框架、 NoSQL 数据库以及大数据平台安全这三方面分析了在不同的应用场景中相应的技术选型以及需要考虑到的权衡点,希望让大家对如何建立一个完整可用的安全大数据平台能有一个直观的认识。

  • 怎么一劳永逸地解决数据安全问题?

    安全问题可大可小,不出事情,你可能根本不会重视,但是一旦出现事故,就是灾难性的。

    2020 年 4 月 27 日

  • Aerospike NoSQL 数据库架构

    Aerospike是一个开源的分布式键-值NoSQL数据库。它支持灵活的数据模式,并且支持满足ACID特性的事务。

  • 《Cassandra 权威指南》第二版书评及访谈

    由Jeff Carpenter和Eben Hewitt所著的《Cassandra权威指南》第二版主要讨论了Cassandra NoSQL 3.0版数据库。作者们讨论了与这款流行数据库相关的许多不同话题,包括数据建模和Cassandra架构。InfoQ就这本书和Cassandra数据库的现有功能和将来规划采访了Jeff Carpenter。

  • Facebook 使用 Corona 提升 Hadoop 的可伸缩性

    Facebook已经开源了Corona,这是一款内部开发的用以改善Hadoop MapReduce调度的软件。

  • Concurrent 发布 Lingual——一种用于 Hadoop 的领域专用语言

    Concurrent股份有限公司是一家企业级大数据应用平台公司,该公司近期发布了Lingual,它是一个开源项目,它能够使Apache Hadoop上的大数据应用开发可以快速、简单地使用SQL。

  • 后 Hadoop 世界中的大数据

    在过去的十年里,由于在 Hadoop 上已经投资了数十亿美元,因此企业不愿意关闭它们的服务器集群。相反,大多数专家都希望 Hadoop 栈能够坚持一段时间,运行客户在其上构建的定制应用。它只是全球 2000 强企业数据中心中的又一项遗留技术。

  • 为什么 MapReduce 会被硅谷一线公司淘汰?

    自2014年左右开始,Google内部已经几乎没人写新的MapReduce了,你知道这是为什么吗?

    2019 年 4 月 17 日

  • 架构师训练营 - 学习笔记 - 第十二周

    大数据与 Hadoop, HDFS

    2020 年 9 月 1 日

  • 使用 TiDB 进行实时数据分析

    演讲嘉宾马晓宇,PingCAP 分析型产品负责人。曾就职于 Quantcast、网易,负责构建和管理大数据平台。关注分布式系统,SQL 引擎开发等领域。内容介绍实时分析平台的架构选型是一个需要多维度权衡的问题。NoSQL 提供了非常低的延迟,但分析能力往往孱弱;Hadoop + MPP 引擎或者分析型数据库提供了复杂的分析能力,但很难胜任实时要求高的场景。如果把他们当做光谱的两端,那其中还有各种不同方案尝试填补空缺,用户往往需要通过复杂的架构来补齐不同方案的短板。TiDB 是一款开源分布式 NewSQL 数据库,它提供了良好的延展性和应对复杂场景的分析能力。对比 NoSQL,它拥有完整的数据库特性支持,降低开发成本;而相对数据湖和分析数据库,它又能很好地承载较高并发的分析场景;配合 TiFlash 以及 TiSpark,传统 Hadoop 平台上的复杂分析也能良好地解决。因此除了传统的 OLTP 场景之外,TiDB 也可以胜任诸多实时分析的场景,甚至在一些场合,它可以作为一个整合的数据平台大大简化系统架构。本次分享将和大家探讨 TiDB 关于实时分析场景的特性和设计以及适用场景,对比它与其他方案的优劣,以及进行中和计划中的相关改进。

    2019 年 7 月 24 日

  • 构建现代化数仓: 将 MPP DBMS 迁移至 Spark

    演讲嘉宾俞育才,eBay大数据架构师内容介绍eBay使用MPP数据仓库已经有二十年的历史,eBay的系统有60PB的数据,上万张的核心表,支撑着eBay最核心的商务逻辑和站点功能。从17年开始,eBay将这个庞大的数仓向Spark做迁移,使用自己开发的工具,这其中90%的工作都可以自动化地完成,并且通过优化Spark框架,节省了一半的内存。本次演讲将分享这迁移过程中的实践,经验与优化。

    2018 年 12 月 18 日

  • 8 个值得关注的 SQL-on-Hadoop 框架

    来自于Shoutlet的软件开发工程师Matthew Rathbone最近发表了一篇文章,他列举了一些常用的SQL-on-Hadoop工具并对各个工具的应用场景和未来进行了分析。

  • 一个 Hadoop 老兵的自白

    Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那Hadoop就不是免费的了。Jim Scott 是MapR企业战略&架构部门的负责人。近日,他在一篇文章中分析了 Apache Hadoop 平台存在的一些固有的设计缺陷,并介绍了 MapR 的解决方案。

  • ScyllaDB 发布其 NoSQL 数据库的主要版本,支持并发 OLTP 和 OLAP

    在Scylla年度峰会上,ScyllaDB发布了其旗舰产品的3.0版本,即ScyllaDB Open Source 3.0。该版本的新特性包括:并发OLTP和OLAP;物化视图;二级索引;兼容Cassandra 3.x文件格式。ScyllaDB首席执行官Dor Laor向InfoQ介绍了这个最新版本。

  • Spark Connecter:MongoDB

    2020 年 12 月 17 日

  • LinkedIn 是如何使用 Apache Samza 的?

    Apache Samza是LinkedIn最近开源的一款流处理器。在题为《Samza:LinkedIn的实时流处理》的演讲中,Chris Riccomini探讨了Samza的功能集,它如何与YARN和Kafka集成,LinkedIn如何用它,以及其未来路线图是什么。

  • Cloudera 独家回应:Hadoop 到底怎么了?

    Hadoop气数已尽?作为大数据的标杆企业,Cloudera是怎么看的?

发现更多内容

oeasy 教您玩转linux 010304 图形界面 xfce

o

关于Java调用类的main方法

谷鱼

Java 包位置

anyRTC云端录制功能上线

anyRTC开发者

WebRTC 语音 直播 RTC 安卓

坚持新媒体写作第21天了,聊聊我为什么喜欢写作

老胡爱分享

学习 写作 习惯养成 坚持 随笔杂谈 讨论写作

ECMAScript 6新特性简介

程序那些事

nodejs ES6 ECMAScript 6

架构师训练营第八周作业

叶鹏

小白理财先转变思维理念

boshi

理财 收入 财富自由

Springboot 定时任务

hepingfly

定时任务 springboot 注解

Spring 5 中文解析数据存储篇-编程式事物管理

青年IT男

Spring5

高难度对话读书笔记—情绪篇

wo是一棵草

Python 中 \x00 和空字符串的区别,以及在 Django 中的坑

AlwaysBeta

Python django 编程

食堂卡就餐卡系统

叶鹏

常用设计模式

叶鹏

一文学懂递归和动态规划!

码农田小齐

算法 数据结构和算法

两天,我把分布式事务搞完了

yes的练级攻略

分布式事务 seata

架构师第1课作业及学习总结

小诗

前端如何优雅处理类数组对象?

pingan8787

Java web前端

用户密码验证函数

叶鹏

Spring 5 中文解析数据存储篇-@Transactional使用

青年IT男

spring

微服务的框架(Dubbo)架构

叶鹏

架构师训练营第7周作业

叶鹏

简述 CAP 原理

叶鹏

被我玩坏的git:除了之前的工作、当网盘用,还能这么玩

小Q

Java git 程序员 架构 开发

从零开始搭建完整的电影全栈系统(五)——WEB网站、Api以及爬虫的部署

刘强西

爬虫 网站搭建 部署与维护

【性能优化】面试官:Java中的对象都是在堆上分配的吗?

冰河

面试 性能优化 JVM 性能调优 逃逸分析

架构师训练营12周作业

叶鹏

架构师训练营第四周作业

叶鹏

一个草根的日常杂碎(9月21日)

刘新吾

生活 现实纪录 随笔

18 张图,一文了解 8 种常见的数据结构

沉默王二

Java 数据结构

实战中学习浏览器工作原理 — 排版与渲染

三钻

CSS 前端 浏览器

简述JVM垃圾回收

叶鹏

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

Structure Big Data揭示Hadoop未来:DataStax Brisk,EMC和MapR-InfoQ