近日,Cloudera 发布了最新的软件发行版 CDH5 。此次发布距离上一个主要版本发布将近 20 个月了, CDH4 似乎已经在 Big Data 世界里存在了好多年。
在从包括英特尔和谷歌风投在内的投资公司那里获得了9 亿美元的资金后,Cloudera 正全速发展,将Hadoop 从一个面向数据科学家的利基工具转成一个存储和处理所有数据的集中地。按Tim Stevens 的说法, Cloudera Enterprise 5 “是一个真正的企业级数据中心”。
Cloudera Enterprise 5 包含 CDH5、Cloudera Manager 5 和 Cloudera Navigator ,其中 Cloudera Navigator 是一款面向 Big Data 数据管理方面的工具。
CDH5 的主要特点是使用 YARN 提供了可用于生产环境的 MR2。Cloudera Manager 也支持 MR2,而且 CDH5 还向后兼容 MR1。不过,Cloudera建议将YARN 和CDH5 一起使用。使用YARN,用户可以并行运行SQL、MapReduce 和Spark 工作负载,而且可以获得更好的整体资源利用率。
现在, Apache Spark 包含在 CDH5 中。Cloudera 宣称,使用 Spark,作业的部分或全部阶段都是在内存中运行,作业执行速度快 5 到 100 倍。最近,Spark 从 Apache 孵化器毕业,在整个2013 年发展势头强劲,有超过100 名贡献者为项目提供帮助。将Spark 集成进CDH5 可以扩展Hadoop 的用途,使其不局限于批处理,还可用于实时分析。除Cloudera 之外,MapR 最近也宣布在面向Apache Hadoop 的MapR 发行版中支持整个 Spark 技术栈。
有了 CDH5,SQL 查询现在通过 Cloudera Impala 以及 Hive 包含在 CDH 中。SQL 支持的特性差异可能正是这两种解决方案的独特之处。
Cloudera 搜索集成进 CDH5,这也意味着任何文件或对象都可以近乎实时地索引和搜索。该功能基于 Apache Solr ,尽管其目的不是成为一个通用的搜索解决方案,但它提供了面向 CDH 中所有数据的全文搜索功能。
Cloudera Enterprise 5 可以集成超过 100 款合作伙伴产品,这有助于将CDH 数据集与流行的预测分析工具集成。数据科学家可以使用他们最喜欢的工具,如SAS 或Revolution Analytics,而且工程开销更小。
此外,它还包含完备的灾难恢复、自动备份与还原工具以及更好的访问控制。Cloudera 将IBM 和Pivotal 看作其主要竞争对手,而不是Hortonworks 和MapR,企业数据中心是其努力的中心。
查看英文原文:**** A Roundup of Cloudera Distribution Containing Apache Hadoop 5
评论