PCon全球产品创新大会(北京站)来啦~了解最新日程 了解详情
写点什么

Drill 升级成为 Apache 的顶级项目

  • 2014 年 12 月 04 日
  • 本文字数:820 字

    阅读完需:约 3 分钟

Apache Drill 是是一个能够对大数据进行交互分析、开源的分布式系统,且基于 Google Dremel 实现,它能够运行在上千个节点的服务器集群上,且能在几秒内处理 PB 级或者万亿条的数据记录。Drill 能够帮助企业用户快速、高效地进行 Hadoop 数据查询和企业级大数据分析。Drill 于 2012 年 8 月份由 Apache 推出,历经两年多的孵化期后,于近日,Apache 基金会宣布 Apache Drill 升级成为基金会的顶级项目。

Drill 项目管理委员会成员 Tomer Shiran 在 Apache 博客中评论到:

Drill 成为顶级项目是其发展过程中的一个重要里程碑,伴随着用户和和不同社区对 Drill 的关注,Drill 将会为基于 Hadoop 应用的开发者和 BI 分析人员的工作带来巨大的变化。

MapR 的产品管理总监 Tomer Shiran 在 Apache 基金会推出 Drill 时评论到:

Drill 与 MapReduce 应该是相辅相成的关系, 在谷歌有数以千计的工程师每天都在使用 Dremel 和 MapReduce,未来也将会有更多的人使用 Drill 与 MapReduce。

从 Drill 官方对其架构的介绍中得知,其具有适于实时的分析和快速的应用开发、适于半结构化 / 嵌套数据的分析、兼容现有的 SQL 环境和 Apache Hive 等特征。另外,Drill 的核心模块是 Drillbit 服务,该服务模块包括远程访问子模块、SQL 解析器、查询优化器、任务计划执行引擎、存储插件接口(DFS、HBase、Hive 等的接口)、分布式缓存模块等几部分,如下图所示:

Drill 是基于 Dremel 而实现的开源项目, 而 Dremel 是来自 Google 的一种用来分析大数据信息的方法。Dremel 能够帮助 Google 实现海量数据集的分析处理, 如抓取 Web 文档的分析、Android Market 上的应用程序数据信息的跟踪、垃圾邮件的分析等。据谷歌的研究报告显示,Dremel 能以 PB 数量级来进行查询,而且只需几秒钟时间就能完成。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 12 月 04 日 04:255420
用户头像

发布了 92 篇内容, 共 40.2 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

HDFS/HBase技术报告·分布式数据库设计架构的深度解析

守护石CTO

hadoop 分布式数据库 关系型数据库 数据模型 TiDB

道相同、谋相通、人相守:华为副总裁周跃峰分享如何与用户精英共创数字基建

脑极体

一种自适应混合域音频无声水印

行者AI

音频

智慧公安情指勤指挥调度平台搭建,指挥中心平台搭建

13823153121

B站视频下载:如何下载B站视频到电脑上

科技猫

B站 分享 哔哩哔哩 视频处理 b站视频下载

开源新老兵携手打开社区大门,带大学生走近开源

DT极客

为打造更好移动生态:日活超1.2亿的百度知道,摊牌了

ToB行业头条

百度 百度知道

分布式存储中间件(1):10000字把Redis扒个干净,一发入魂

北游学Java

Java 数据库 redis 分布式

传统行业为什么需要互联网人才

陈俊

Spark地基之RDD

正向成长

spark RDD

Flink在唯品会的实践

Apache Flink

flink

聚力区块链 共建数字中国丨“桂链”平台正式发布并启动全面接入“星火·链网”

浪潮云

云计算

Golang 性能分析

escray

学习 极客时间 Go 语言 4月日更

电脑护眼不权威指南,年纪轻轻眼睛就不行了?

彭宏豪95

效率 windows 4月日更 护眼

百度商业大规模微服务分布式监控系统——凤睛

百度Geek说

数据库 分布式 微服务 大前端 监控

分布式作业系统 Elastic-Job-Lite 源码分析——作业失效转移

比伯

Java 编程 架构 互联网 技术宅

Github瞬间爆火!被各大厂要求直接下架的面试题库也太全了

Java 编程 程序员 架构 面试

ElasticSearch

云淡风轻

elasticsearch

什么是低代码开发?低代码11大核心功能介绍!

优秀

低代码

聪明人的训练(二十七)

Changing Lin

4月日更

Javac 源码调试教程

学Java关注我

Java 编程 程序员 架构 计算机

Java-技术专题-同步可见性的查缺补漏

浩宇天尚

JVM happens-before CAS 可见性 有序性

直播系统聊天技术(四):百度直播的海量用户实时消息系统架构演进实践

JackJiang

架构设计 即时通讯 IM 直播技术

网络协议学习笔记 Day6

穿过生命散发芬芳

网络协议 4月日更

北京天源迪科亮相2021年企业数字化转型峰会暨山东CIO智库年会

DT极客

iOS 面试策略之语言工具-Objective-C

iOSer

ios objective-c 程序员

实至名归!DataPipeline斩获“银行数字化科技创新大奖”

DataPipeline数见科技

Linux内核源码分析:基于最新的Linux 4.0内核(学习路线总结)

Linux服务器开发

后端 Linux内核 内核源码 内核4.0 底层原理

送给你一份程序员大佬整理的 HTTP 基础知识大图

Java架构师迁哥

移动开发iOS工程师秘籍(全套七层)

程序员 ios开发 移动开发·

commons-pool2 池化技术探究

vivo互联网技术

Java common-pool2 池化技术

TDSQL前沿技术进展和趋势——数据异常基础理论研究

TDSQL前沿技术进展和趋势——数据异常基础理论研究

Drill升级成为Apache的顶级项目-InfoQ