HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296101
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 134.3 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

软件定义卫星:数字卫星实践

DevOps和数字孪生

软件定义卫星

区块链与人工智能的交叉应用:创造新时代的技术合力

测吧(北京)科技有限公司

测试

“离谱的AI扩图”火了!张张那叫一个出其不意

Openlab_cosmoplat

SFX的妙用——如何在不安装软件的情况下打开自定义格式文件?

EquatorCoco

软件开发 windows 应用开发

面向AI开发的六种最重要的编程语言

高端章鱼哥

Python 人工智能 AI 编程语言

编译器上手指南,算子开发及开源项目指导手册,直播课程报名通道限时开启!

MegEngineBot

深度学习 开源 编译器 实习

Spring基础,你学会了吗

是月月啊2023

Spring 配置解析

淘宝商品评论的可靠性如何保证?

技术冰糖葫芦

API 接口

人工智能机器人在工业与服务中的崭新角色

测吧(北京)科技有限公司

测试

SecureCRT for mac(终端SSH工具)v9.3.2激活版

iMac小白

JetBrains GoLand For Mac(GO语言集成开发工具环境)v2023.3中文激活版

iMac小白

国内零代码链接器有哪些?

RestCloud

零代码 APPlink

外贸网站关键词布局:提升外贸网站关键词排名的策略

九凌网络

利用SEO策略提升网站排名和流量

九凌网络

揭秘可解释性人工智能的关键

测吧(北京)科技有限公司

测试

基于Java开发的知识图谱知识库管理系统

金陵老街

人工智能在教育中的创新应用

测吧(北京)科技有限公司

测试

问鼎2023边缘云计算,天翼云边缘安全加速平台AccessOne助力企业安全高速发展

Geek_2d6073

泳道图绘制指南!快速掌握流程,轻松规划

职场工具箱

泳道图 高效绘制

Google 发布史上最强大模型 Gemini!GPT-4 被全面超越?

极狐GitLab

人工智能 AI Google openai gemini

开发体育赛事直播平台技术创新:引领未来观赛新体验

软件开发-梦幻运营部

大模型数据集:探索新维度,引领AI变革

来自四九城儿

人工智能 | 农业领域中的智能农业解决方案

测吧(北京)科技有限公司

测试

KeyShot 2023 Pro for mac v12.2.2.4激活版

iMac小白

Google排名高的是什么样的页面?

九凌网络

大模型数据集:力量的源泉,进步的阶梯

来自四九城儿

基于Browscap对浏览器工具类优化

不在线第一只蜗牛

浏览器 软件开发 可视化工具

SpringBoot 实现动态切换数据源,这样做才更优雅!

是月月啊2023

MySQL 多数据源配置

Java简介超详细整理,适合新手入门

是月月啊2023

Java java基础

实战!Redis分布式锁的7种实现方式

是月月啊2023

redis分布式锁

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章