QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

不同实时 Hadoop 实现之间竞争升温

  • 2013-02-27
  • 本文字数:782 字

    阅读完需:约 3 分钟

自从 Google 的 Dremel 论文发表以来,Hadoop 社区已经在尝试围绕 Hadoop 实现类似功能。首先出现的是 OpenDremel ,目前它已经是 Apache Drill 的一部分,而后者已于去年成为 Apache 孵化项目。之后,也是在去年,Cloudera 引入了 Impala ,目前仍处于 beta 状态,它还是 Cloudera Hadoop 发布版——CDH 4.1 的一部分。

Stinger Initiative 是该领域新的竞争者,由 Hortonworks 于上周引入 Apache 的孵化过程,其目标是:

让 Hive 能在人的响应时间内处理很多用例(也就是 5-30 秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有 Hive 技巧和投资的大型社区带来很多价值。

Hortonworks 打算通过以下手段实现该目标:

  • 改进 Hive 的 SQL 兼容性,包括支持 Hive 中没有的 SQL 类型和‘where’子句中的子查询。
  • 优化 Hive 的执行计划。
  • 支持新的 Hadoop 列格式 ORCFile(类似于 Dremel、Drill 和 Cloudera 的 Trevini )。
  • 引入基于 YARN 的新的运行时框架 Tez

Tez 是北印度语的“速度(speed)”,该项目还处于等待投票成为 Apache 孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化 Hadoop 中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂 DAG(有向无环图)任务的能力,它将 MapReduce 范型推广为一种更强大的框架,这样 Apache Hadoop 生态系统中的项目(如 Apache Hive、Apache Pig 和 Cascading)就能满足人机交互响应时间和 PB 级规模极端吞吐量的需求了(无疑 MapReduce 是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop 查询实现——Drill、Impala 和现在的 Stinger 或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时 Hadoop 查询的重要问题。

查看英文原文 Competition between Real-time Hadoop Implementations Heats Up

2013-02-27 07:074447
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 136.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

一、何为应用系统高可用

穿过生命散发芬芳

5月月更

Kotlin 中的泛型:协变与逆变

如浴春风

5月月更

M4: 设计千万级学生管理系统的考试试卷存储方案

Jadedev

架构实战营

[Day32-02]-[二叉树]在二叉树中增加一行

方勇(gopher)

LeetCode 二叉树 数据结构和算法

Kubernetes 如何将 Pod 分配给节点

玄月九

Kubernetes 污点 亲和 反亲和 容忍

这个页面效果看起来真恶心,怎么解?

石云升

团队管理 项目管理 职场经验 5月月更

今天是第几周

入门小站

工具

运营好公众号需要具备的能力/技能

源字节1号

软件开发

[Day32-04]-[二叉树]二叉树的最近公共祖先

方勇(gopher)

LeetCode 二叉树 数据结构和算法

深度学习之解构基础网络结构

AIWeker

人工智能 深度学习 基础网络

面向快速反应的工程团队--QRF团队模型

俞凡

管理 研发效能

DDD实战(9):冲刺1战术之服务设计(上)

深清秋

DDD 软件架构 生鲜电商系统

[Day32-03]-[二叉树]不同的二叉搜索树

方勇(gopher)

LeetCode 二叉树 动态规划 数据结构和算法 卡特兰数

设计千万级学生管理系统的考试试卷存储方案

唐诗宋词

深度学习之解构卷积

AIWeker

人工智能 深度学习 卷积 convolution

linux之登录式shell和非登录式shell

入门小站

Linux

在线Excel转XML工具

入门小站

工具

nginx配置系列(四)请求限制

乌龟哥哥

5月月更

使用PIL.Image库极简生成含冬奥会元素头像

芝士味的椒盐

Python 冬奥会 5月月更

【愚公系列】2022 年 05月 二十三种设计模式(一)-工厂方法模式(Factory Method Pattern)

愚公搬代码

5月月更

[Day32-05]-[BST] BST最近公共祖先

方勇(gopher)

LeetCode 二叉树 数据结构和算法

他们连夜跑路了,原因是我给数据开发的学弟学妹写了个实习生年终总结

袁袁袁袁满

这是一篇关于哈希表的爽文

武师叔

5月月更

软件架构的23个基本原则

俞凡

架构

如何在网站上安装 WordPress

海拥(haiyong.site)

WordPress 5月月更

模块四作业(试卷存储设计)

天琪实刚亮

千万级学生管理系统的考试试卷存储方案

鱼恨水

千万级学生管理系统的考试试卷存储方案

高山觅流水

「架构实战营」

Hadoop全分布式部署

芝士味的椒盐

Java 大数据 hadoop 5月月更

maven构建docker镜像三部曲之一:准备环境

程序员欣宸

Java Docker 5月月更

千万级学生管理系统的考试试卷存储方案

CityAnimal

架构实战营 #架构实战营 架构师实战营 「架构实战营」

不同实时Hadoop实现之间竞争升温_大数据_Boris Lublinsky_InfoQ精选文章