写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296197
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 137.6 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

leetcode 128. Longest Consecutive Sequence 最长连续序列(中等)

okokabcd

LeetCode 数据结构与算法

C++继承中的同名成员处理方式与同名静态成员处理方式

CtrlX

c c++ 面向对象 代码 8月月更

RocketMQ高可用设计之消息发送重试

急需上岸的小谢

8月月更

docker下,极速搭建spark集群(含hdfs集群)

程序员欣宸

spark 8月月更

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(下)

Orillusion

WebGL 元宇宙 Metaverse webgpu #开源

春意盎然,适合“二叉树剪枝”

掘金安东尼

算法 前端 8月月更

开源一夏 | 使用 Three.js 实现"雪糕"地球,让地球也凉爽一夏

战场小包

JavaScript 开源 前端 3D ThreeJS

Redis分布式锁-觉悟吧,红锁!

知识浅谈

redis分布式锁 8月月更

彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-项目入口与路由EP01

刘悦的技术博客

Go golang Go web Go 语言 golang 面试

【Java】:你知道字符串的格式化输出吗?

翼同学

Java 前端 编程语言 8月月更

RPC与REST对比指南

阿泽🧸

Rest 8月月更

Web3 结算协议 Zebec Protocol 的商业模式与发展前景一览

股市老人

每日一R「08」类型系统(二)

Samson

8月月更 ​Rust

Web3 结算协议 Zebec Protocol 的商业模式与发展前景一览

BlockChain先知

面试突击75:SpringBoot 有几种读取配置文件的方法?

王磊

Java 常见面试题

STM32入门开发:编写XPT2046电阻触摸屏驱动(模拟SPI)

DS小龙哥

8月月更

a豆14 Pro高性能高颜笔记本,新潮配色助力打造a豆AIoT智能生态圈

科技热闻

文件管理-Linux系统VIM编辑

Albert Edison

Linux centos 运维 vim教程 8月月更

开源一夏|聆听信通院何所长开源生态发展的所记所思

穿过生命散发芬芳

开源 8月月更 SUSECON

Web3 结算协议 Zebec Protocol 的商业模式与发展前景一览

鳄鱼视界

[极致用户体验] 用户体验好的 Button,在手机上不应该有 Hover 态

HullQin

CSS JavaScript html 前端 8月月更

加码企业服务,阿里云发布计算巢加速器

阿里云弹性计算

PaaS 企业服务 计算巢 ISV

再见MybatisPlus,阿里推出新ORM框架!

TimeFriends

8月月更

【云原生】SpringCloud Alibaba 之 Nacos注册中心实战

Bug终结者

Java 分布式 SpringCloud 8月月更

App切换到后台后如何保持持续定位?

HarmonyOS SDK

Java基础之Java枚举

自然

Java core 8月月更

小菜鸟河北联通上岗培训随笔二

乌龟哥哥

8月月更

【数独 1】不回溯,试试候选数法1ms高效解数独谜题-C++实现

清风莫追

8月月更

Java基础知识(一些需要注意的点)

自然

基础 8月月更

不是吧,还有人不知道三目运算符的BUG

自然

基础 8月日更 8月月更

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章