近日,Apache 软件基金会发布了 Hive 0.6.0。Hive 是由众多的志愿者所创建的开源项目。此前,它是 Hadoop 的一个子项目,但现在已经演化成为了 Apache 的一个顶级项目。
Hive 是 Hadoop 所用的一个数据仓库系统,对于存储在 Hadoop 兼容的文件系统中的大规模数据集来说,Hive 可以简化其摘要、ad-hoc 查询以及分析过程。Hive 提供了一种机制,可以将结构应用在这种数据上并使用名为 HiveQL 的类似于 SQL 的语言查询数据。同时,如果在表达逻辑时使用 HiveQL 不方便或效率比较低,那么传统的 map/reduce 程序员还可以使用其定制的 mappers 与 reducers。
Hive 的设计目标并非是在线的事务处理,也没有提供实时的查询与行级别更新。它的最佳应用场景是海量不变数据的批量处理。Hive 最具价值的地方在于可伸缩性、可扩展性、容错处理以及与输入格式的松散耦合。
Hive 并不需要使用专门的“Hive 格式”,它支持 Thrift、Control Delimited 或是你自己专门的数据格式。
Hive 0.6.0 对其 MetaStore 模式进行了修改。如果你想从老版本的 Hive 升级,那么就需要运行正确的模式升级脚本来升级 MetaStore,该脚本位于 scripts/metastore/upgrade 目录。
Hive 团队为 Derby、MySQL 与 PostgreSQL 数据库提供了升级脚本。如果你为 MetaStore 使用了不同的数据库,那么就需要自己编写脚本了。
感兴趣的读者可以到 Hive 的发布页面下载 Hive 0.6.0: http://hive.apache.org/releases.html。下载完毕后请跟随上手指南以了解 Hive 的安装与配置方法,地址为 http://wiki.apache.org/hadoop/Hive/GettingStarted。
评论