Apache Drill 是是一个能够对大数据进行交互分析、开源的分布式系统,且基于 Google Dremel 实现,它能够运行在上千个节点的服务器集群上,且能在几秒内处理 PB 级或者万亿条的数据记录。Drill 能够帮助企业用户快速、高效地进行 Hadoop 数据查询和企业级大数据分析。Drill 于 2012 年 8 月份由 Apache 推出,历经两年多的孵化期后,于近日,Apache 基金会宣布 Apache Drill 升级成为基金会的顶级项目。
Drill 项目管理委员会成员 Tomer Shiran 在 Apache 博客中评论到:
Drill 成为顶级项目是其发展过程中的一个重要里程碑,伴随着用户和和不同社区对 Drill 的关注,Drill 将会为基于 Hadoop 应用的开发者和 BI 分析人员的工作带来巨大的变化。
MapR 的产品管理总监 Tomer Shiran 在 Apache 基金会推出 Drill 时评论到:
Drill 与 MapReduce 应该是相辅相成的关系, 在谷歌有数以千计的工程师每天都在使用 Dremel 和 MapReduce,未来也将会有更多的人使用 Drill 与 MapReduce。
从 Drill 官方对其架构的介绍中得知,其具有适于实时的分析和快速的应用开发、适于半结构化 / 嵌套数据的分析、兼容现有的 SQL 环境和 Apache Hive 等特征。另外,Drill 的核心模块是 Drillbit 服务,该服务模块包括远程访问子模块、SQL 解析器、查询优化器、任务计划执行引擎、存储插件接口(DFS、HBase、Hive 等的接口)、分布式缓存模块等几部分,如下图所示:
Drill 是基于 Dremel 而实现的开源项目, 而 Dremel 是来自 Google 的一种用来分析大数据信息的方法。Dremel 能够帮助 Google 实现海量数据集的分析处理, 如抓取 Web 文档的分析、Android Market 上的应用程序数据信息的跟踪、垃圾邮件的分析等。据谷歌的研究报告显示,Dremel 能以 PB 数量级来进行查询,而且只需几秒钟时间就能完成。
感谢郭蕾对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。
评论