写点什么

不同实时 Hadoop 实现之间竞争升温

  • 2013-02-27
  • 本文字数:782 字

    阅读完需:约 3 分钟

自从 Google 的 Dremel 论文发表以来,Hadoop 社区已经在尝试围绕 Hadoop 实现类似功能。首先出现的是 OpenDremel ,目前它已经是 Apache Drill 的一部分,而后者已于去年成为 Apache 孵化项目。之后,也是在去年,Cloudera 引入了 Impala ,目前仍处于 beta 状态,它还是 Cloudera Hadoop 发布版——CDH 4.1 的一部分。

Stinger Initiative 是该领域新的竞争者,由 Hortonworks 于上周引入 Apache 的孵化过程,其目标是:

让 Hive 能在人的响应时间内处理很多用例(也就是 5-30 秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有 Hive 技巧和投资的大型社区带来很多价值。

Hortonworks 打算通过以下手段实现该目标:

  • 改进 Hive 的 SQL 兼容性,包括支持 Hive 中没有的 SQL 类型和‘where’子句中的子查询。
  • 优化 Hive 的执行计划。
  • 支持新的 Hadoop 列格式 ORCFile(类似于 Dremel、Drill 和 Cloudera 的 Trevini )。
  • 引入基于 YARN 的新的运行时框架 Tez

Tez 是北印度语的“速度(speed)”,该项目还处于等待投票成为 Apache 孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化 Hadoop 中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂 DAG(有向无环图)任务的能力,它将 MapReduce 范型推广为一种更强大的框架,这样 Apache Hadoop 生态系统中的项目(如 Apache Hive、Apache Pig 和 Cascading)就能满足人机交互响应时间和 PB 级规模极端吞吐量的需求了(无疑 MapReduce 是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop 查询实现——Drill、Impala 和现在的 Stinger 或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时 Hadoop 查询的重要问题。

查看英文原文 Competition between Real-time Hadoop Implementations Heats Up

2013-02-27 07:074400
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 135.2 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

深度解读:Apache DolphinScheduler 新架构与特性,性能提升2~3倍

代立冬

大数据 开源 工作流调度 开源社区

oeasy教您玩转linux010204-figlet

o

LeetCode题解:84. 柱状图中最大的矩形,循环+双指针暴力,JavaScript,详细注释

Lee Chen

大前端 LeetCode

区块链数字货币交易所开发,数字交易平台搭建

13530558032

北京首台区块链政务终端亮相 一键“拉取”链上数据

CECBC

区块链技术

ARTS Week10

丽子

企业表格技术与风险指标补录系统

葡萄城技术团队

SpreadJS

芯片破壁者(十五):仙童半导体和“八叛逆”所缔造的“硅谷模式”

脑极体

macos主流工作开发套件指南

久违

macos Docker 大前端 自动化部署

学习笔记丨结构体中的内存管理

Liuchengz.

c Linux 学习

从每秒6000写请求谈起

架构师修行之路

程序员 架构师 高并发系统设计

Python 中的数字到底是什么?

Python猫

Python 翻译 PEP

Apache Pulsar 8 月月报:里程碑一个接一个

Apache Pulsar

大数据 云原生 Apache Pulsar 消息系统 消息中间件

有奖征文火热开赛,万元大奖等你来拿,准备好了吗?

InfoQ写作社区官方

程序员 开发者 音视频 随笔杂谈 RTC征文大赛

在5G智慧园区的“保龄球道”上,目标全垒打的征途

脑极体

凤凰交易所 全球首个多元化生态交易平台震撼来袭

InfoQ_967a83c6d0d7

Docker 搭建 Redis Cluster 集群环境

哈喽沃德先生

redis Docker 容器 集群 redis cluster

数字货币钱包软件开发方案,区块链数字货币钱包源码

13530558032

合约跟单系统开发,合约跟单软件定制开发

13530558032

iWebExcel 协同数据填报和在线分析平台

葡萄城技术团队

SpreadJS

Centos7 mongodb安装全攻略

红泥

mongodb

经济适用的企业内外网互动直播方案

fumingwang

音视频 直播 视频会议 企业应用

区块链+公共安全 大有可为

CECBC

区块链 安全

区块链支付系统开发,数字货币支付承兑商APP模式搭建

13530558032

dubbo应用级服务发现初体验

捉虫大师

dubbo 注册中心

全场景智慧:新工业革命必须拥抱的晨曦

脑极体

Flink保存点-17

小知识点

scala 大数据 flink

区块链usdt承兑商支付系统开发 区块链应用开发

电微13828808271

USDT承兑支付系统开发

LeetCode题解:239. 滑动窗口最大值,双循环暴力,JavaScript,详细注释

Lee Chen

大前端 LeetCode

实战中学习浏览器工作原理 — 之 HTTP 请求与解析

三钻

CSS Java 大前端 浏览器

缓存与数据库一致性问题深度剖析

Zhendong

数据库 缓存 秒杀系统

不同实时Hadoop实现之间竞争升温_大数据_Boris Lublinsky_InfoQ精选文章