免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296089
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 133.9 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

S4HANA和CRM Fiori应用的搜索分页实现

汪子熙

CRM SAP Fiori SAP UI5 S/4HANA

S4CRM和C4C的技术比较

汪子熙

CRM SAP ERP abap Cloud for Customer

如何实现一个简易版的 Spring - 如何实现 AOP(上)

mghio

Java 技术 后端 基础知识 spring aop

架构实战营 模块4 作业

CR

架构实战营 模块四作业

Dylan

架构实战营

Dubbo 令牌验证和优雅停机

青年IT男

dubbo

你真的会用ABAP, Java和JavaScript里的constructor么?

汪子熙

JavaScript CRM SAP abap

如何计算并测量ABAP及Java代码的环复杂度Cyclomatic complexity

汪子熙

Java SAP abap

如何查看某个用户指定时间段的ABAP开发记录

汪子熙

SAP abap SAPGUI

今天社区团购了吗?

lenka

5月日更

mongodb 修改字段类型

xiaolu

mongodb

SAP UI5, CRM, S/4HANA 和 C4C里的Association, Composition and Aggregation

汪子熙

JavaScript CRM SAP SAP UI5

架构实战营 模块四作业

夏日

架构实战营

架构实战营模块四作业

冷大大

作业 架构实战营 模块四

设计千万级学生管理系统的考试试卷存储方案

thewangzl

架构师训练营模块4作业

歲月鎏金😈

使用ABAP Push Channel(APC)开发的乒乓球游戏,可双打

汪子熙

SAP abap APC

千万级学生管理系统的考试试卷存储方案

Lane

过拟合 - DAY13

Qien Z.

5月日更 过拟合

身份认证

escray

学习 极客时间 安全 5月日更 安全攻防技能30讲

SAP UI5和CRM WebUI的View和Controller是如何绑定的

汪子熙

CRM SAP abap WebClient UI SAP UI5

架构训练营模块四作业

Neil43

架构训练营

作业 - 设计千万级学生管理系统的考试试卷存储方案

sN0wpeak

架构实战营

千万级学生管理系统的考试试卷存储方案

王瑞强

架构实战营

华仔架构训练营作业(模块四)

不听不听王八念晶

ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较

汪子熙

JavaScript nodejs CRM SAP C4C

第四课作业

杰语

架构实战营模块 4 作业

梦寻解语花

架构实战营

架构营作业-模块4

大师兄

sap.ui.require in SAP UI5 and require in nodejs

汪子熙

nodejs SAP SAP UI5

思考题太难了

Nydia

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章