经过六年时间的酝酿,开源分布式计算和 Big Data 框架 Apache Hadoop 终于发布 1.0.0 版本。本次发布的新特性包括:
- 安全特性( Kerberos 协议下的强验证)
- 改进对 Apache HBase 的支持(支持针对事务日志操作的 sync 和 flush)。允许在 hflush/sync 操作进行期间,对 HDFS 客户端发起新的写入 。
- Webhdfs 为 Hadoop 分布式文件系统( HDFS )提供了一套 RESTful API。这项特性使 webhdfs 成为对 FileSystem 接口的完整实现,可通过 HTTP 对 HDFS 作完全的访问;而之前的 hftp 特性只实现了只读的 FileSystem 接口,不能执行“write”操作。
- 改善 HBase 访问本地文件的性能。
此次新版还包括若干性能改善、错误修正等别的一些特性。
InfoQ 找到 Arun Murthy——Apache Hadoop 项目的 VP,请他说明一下本次 1.0.0 版包含的特性,以及下一版本的规划。
InfoQ:Apache Hadoop 经过 6 年时间的开发才发布 1.0.0 版。为何第一次正式发布要花这么长时间?
Arun Murthy:Apache Hadoop 已经在若干大型企业投入实际应用,比如 Yahoo、Facebook 等等。“1.0.0”这个标签主要代表了 Apache Hadoop 社区对其成熟度的认可,代表社区有信心在可见的未来,在各式企业五花八门的应用场景下,维持与此版本的兼容。这次发布应该可以提升企业及最终用户对 Apache Hadoop 的信心,有利于 Apache Hadoop 的进一步推广。
InfoQ:本次发布在身份验证、访问控制和数据加密方面,支持什么样的安全特性?
Arun: 1.0.0 版的存储文件系统 HDFS 和数据处理方面的 MapReduce ,都支持强的、端到端的、基于 Kerberos 的身份验证。Kerberos 目前在企业中非常流行,是遥遥领先的网络认证协议。
1.0.0 版还在应用与数据的所有层面提供了强访问控制。例如可以限定只允许具体的单个或多个用户查看运行中的应用,查看应用日志等等。
InfoQ:可以谈谈新版在性能方面的改进吗?
Arun:有不少改进。代表性的例子比如我们为 Apache HBase 之类的应用优化了本地读取性能,取得非常显著的效果,特定用例的效率翻了一番。
InfoQ:Hadoop 下一版本规划了哪些新特性?可以列举一些吗?
Arun:Apache Hadoop 的下一个大版本目前正处于 alpha 阶段,预计在 2012 年中发布。主要的亮点有:
- HDFS 文件系统的高可用性——解决文件系统的单点失败问题。
- HDFS Federation 特性,扩大文件系统的命名空间至少 4 到 5 倍,可显著提高集群容量,包括集群中的节点数量和命名空间中的文件数量两方面的提高。
- NextGen MapReduce(又名 YARN )可使 Hadoop 从只支持 MapReduce 应用,转变为在同一个 Hadoop 集群中同时支持多种通用的分布式计算组织构造,允许同时运用 MapReduce、Message Passing Interface(MPI)、迭代式编程等不同范式。这项特性还将允许 Hadoop 支持更大规模的集群(6000 - 10000 个节点),支持计算组织体(compute fabric)的高可用性。
Arun 还提及他们感觉 Apache Hadoop 下一版本在 High Availability 等众多企业级特性上有显著的改善,应该会让 Hadoop 在企业中找到更多的应用场景,特别是 NextGen MR(YARN)。
查看英文原文: Apache Hadoop 1.0.0 Supports Kerberos Authentication, Apache HBase and RESTful API to HDFS
评论