AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

Pivotal 开源其大数据处理的核心组件

  • 2015-02-28
  • 本文字数:1470 字

    阅读完需:约 5 分钟

近日, Pivotal 宣布将其大数据套件的三个核心组件开源,即基于内存的分布式NoSQL 数据库 GemFire 、基于 Hadoop 架构的大规模并行 SQL 分析处理引擎 HAWQ 、大规模并行处理分析数据库 Greenplum 。同时,商业版本仍将继续提供更高级功能和商业支持服务。Pivotal 开源这三个核心组件最主要原因是受其成功的 Cloud Foundry 开源案例所启发。Cloud Foundry 是 VMware 于 2011 年 4 月 12 日推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台以及应用服务。同时,Pivotal 还宣布其将加入开放数据平台(Open Data Platform),这是一个目前已有 14 个公司组成的组织,包括 Hortonworks 通用电器GE 、IBM、威瑞森(Verizon)等,该组织主要提供Hadoop 的企业版。

Pivotal 的大数据套件主要包括 Pivotal 的企业级 Hadoop 发行版 Pivotal HD 、Greenplum、HAWQ、GemFire、开源分布式框架 Spring XD 、K/V 数据库 Redis 、消息队列 RabbitMQ Cloud Foundry 上的大数据套件。其中 Greenplum 和 GemFire 主要用来处理结构化数据,其他产品都是用来处理非结构化数据。通过 HAWQ 能够将 Greenplum 与 Hadoop 分布式架构进行紧密地融合。整个套件将从大规模并行处理、内存计算以及 Hadoop 批处理三方面满足企业对大数据的需求。Pivotal 的大数据套件的客户包括国内的中信银行中国铁路总公司以及国外的美国金融服务公司 Zions Bancorporation 印度尼西亚电信运营商巴克莱电信(Bakrie Telecom)印度国有铁路公司(Indian Railways
美国西南航空公司(Southwest Airlines)
Pivotal 大数据套件架构如下图所示:

从 Pivotal 的官网得知,GemFire 的重要特征包括支持基于内存的数据网格、支持 ACID 事务、高性能、低延迟、高可用性、高扩展性、能够使用多种语言实现数据管理、强大的数据应用功能、易于管理的分布式数据网格管理等。GemFire 可用于企业级的数据缓存、弹性的内存计算、大规模的实时交易应用、弹性流数据处理等。作为世界规模最大的实时交易系统之一的中国铁路客户服务中心网站(12306.cn),于 2012 年 6 月选择 GemFire 分布式内存计算平台进行了改造,以解决尖峰高流量并发问题。

HAWQ 支持事务处理,它能够将复杂的查询分割成简单的任何大小的处理单元,并分发到并行处理系统中。HAWQ 具有高性能的架构、完全支持 SQL 标准、具有深度分析和机器学习能力、支持本地 Hadoop 文件格式等重要特征。

开源中国上发布的一篇题为《 Greenplum 高性能数据引擎探秘》的文章对 Greenplum 进行了详细介绍。文章指出 Greenplum 数据库是为新一代数据仓库和大规模分析处理而建立的软件解决方案,其最大的特点是不需要高端的硬件支持仍然可以支撑大规模的高性能数据仓库和商业智能查询。在数据仓库、商业智能的应用上,尤其海量数据的处理方面,Greenplum 的性能极其优异。Greenplum 的重要特征包括大规模并行处理的架构、超强的并行计算能力、高效的数据载入、具有灵活地存储和分析能力、高效的分析平台、能够无缝集成已有的分析功能栈、最佳的数据管理框架等。

Pivotal 是由 GE、 EMC 和 VMware 联合组成的专注开源 PaaS 和大数据应用 Cloud Foundry、Greenplum 等业务的合资公司。Pivotal 原来一直资助着 Groovy/Grails 项目和主导这些项目的开发,不过今年 1 月份,Pivotal 官方宣布将不再资助Groovy/Grails 项目,并重新把精力集中在Cloud Foundry 上。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2015-02-28 08:194898
用户头像

发布了 46 篇内容, 共 53.6 次阅读, 收获喜欢 15 次。

关注

评论

发布
暂无评论
发现更多内容

名震GitHub,字节跳动内部顶级数据结构刷题学习笔记根本停不下来

Java 程序员 数据结构 面试 字节

2021字节总监最新发布:JVM +GC优质手册!面试专属,mongodb集群搭建原理

Java 程序员 后端

2021年总结阿里、腾讯、百度等大厂11个Redis系列高频面试题,哪些你还不会

Java 程序员 后端

2021最新常见200+Java面试题汇总(含答案解析),unity高级工程师面试题

Java 程序员 后端

发布两小时,霸榜GitHub Spring Boot实战文档

Java GitHub spring 编程 程序员

从OA到COP,致远互联成引领行业的“灯塔”

海比研究院

致远互联 COP 协同运营平台

1万字长文高速你千万级并发架构下如何提高数据库存储性能,使用指南

Java 程序员 后端

迎接10亿快递高峰,看百度OCR如何助力物流企业提速

百度大脑

人工智能 OCR

2020百度、小米、乐视、美团,小米java面试几轮

Java 程序员 后端

2021年10月最新版Java面试真题+视频解析(价值24980赶紧收藏码住!

Java 程序员 后端

2021年五面蚂蚁、三面拼多多、字节跳动最终拿offer入职拼多多,我是如何收割多家大厂offer的

Java 程序员 后端

2021最新38道Spring大厂面试题,你碰到过哪道?,java开发工程师百度百科

Java 程序员 后端

2020年春招复盘:技术三面+HR面,成功斩获京东offer,springboot项目实战源码

Java 程序员 后端

代码覆盖率VS测试覆盖率

FunTester

测试 测试覆盖率 覆盖率 FunTester 代码覆盖率

2021最新一线互联网大厂常见高并发面试题解析,springcloud视频百度云

Java 程序员 后端

2021最新华为面经分享:Java高分面试指南(25分类1000题50w字解析)

Java 程序员 后端

百度APP移动研发平台及DevOps实践

百度开发者中心

DevOps 最佳实践 方法论 移动端 百度app

1小时破千万点击量!阿里巴巴首发:Java实践指南,mysql使用教程图解目录

Java 程序员 后端

万字长文手写数据库连接池,让抽象工厂不再抽象

Tom弹架构

Java 架构 设计模式

完美诠释Netty,腾讯强推599页Netty进阶神技,惊掉我的下巴

Java 编程 程序员 Netty

2020-6次面试阿里,持续一个多月,终于拿到offer了!,java三层架构登录功能实现

Java 程序员 后端

2020淘宝双十一快速刷金币工具,这份字节跳动历年校招Java面试真题解析

Java 程序员 后端

2021最强面试笔记非它莫属:3000字Java面试核心手册(大厂必备),linux操作系统教程下载

Java 程序员 后端

2020年Java篇:蚂蚁金服、拼多多、字节跳动的面试总结,mysqlserver使用教程

Java 程序员 后端

2021BATJ面试题大全500道:Redis+数据库+分布式,java面试简历百度云

Java 程序员 后端

2021年最新基于Spring Cloud的微服务架构分析,java技术经理岗位职责

Java 程序员 后端

2021最新出炉BAT架构实战文档:多线程与高并发+分布式+微服务,泛微网络java面试题

Java 程序员 后端

进击的Java(四)

ES_her0

11月日更

大数据实践:数据指标中心的建设思路

大数据技术指南

11月日更

15W字!腾讯总监手写“Netty速成手册”,mysql索引优化面试题

Java 程序员 后端

2021 年最新版 68道Redis面试题,20000字,赶紧收藏起来备用,成功入职阿里

Java 程序员 后端

Pivotal开源其大数据处理的核心组件_大数据_李小兵_InfoQ精选文章