速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Presto 即服务:AWS 上的交互式 SQL 查询

  • 2014-02-17
  • 本文字数:1241 字

    阅读完需:约 4 分钟

作为 Facebook 公司的一项可用作在 PB 级规模的数据上执行交互式 SQL 查询的技术, Presto 现在已经迈出了步入主流应用的第一步。大数据创业公司 Qubole 日前发布了与 Amazon Web Services 集成的 Presto 即服务 alpha 版本

这套新系统与目前已经集成的 Hadoop、Hive 以及 Pig,都属于 Qubole 公司不断发展壮大的平台 Qubole Data Service (QDS)中的一部分。由于 Presto 原生集成了 Hive、Hbase 和关系型数据库,因此它的这种特性使得它非常适合这类管理服务。作为 Qubole 公司的联合创始人, Ashish Thusoo Joydeep Sen Sarma 曾创建了 Hive,并且把 HBase 带到了 Facebook,因此对于他们来说,这一步看起来顺理成章。这项服务的一个主要用例就是通过查询 Hive 表以取得存储在 S3 上的数据,这样一来 QDS 的用户就可以很方便地基于这些表执行查询操作了。Qubole 目前的服务都是以 AWS 为中心构建的,原因正如 Ashish 所说,“这是由我们目前的需求决定的”。Qubole 将自己定位为昂贵的数据仓库系统的替代品,就像 Qubole 的工程副总裁 Shrikanth Shankar 所说,“对于那些之前依赖昂贵的商业技术进行快速分析工作的用户来说,Presto 将为他们带来巨大的价值。”

在大数据领域内,Presto 实际上是一项相对较新的技术。Facebook 的这个项目开始于 2012 年秋,并在 2013 年上半年正式上线,最终在 2013 年 11 月完全开源。Presto 背后所使用的执行模式与 Hive 有根本的不同,它没有使用 MapReduce,这一点与其他 SQL 查询引擎(例如 Cloudera Impala UC Berkeley Shark )很像。其中的关键是所有的处理都在内存中完成,正如 Ashish 所说,“Presto 更适合运行在配有更大内存的实例上。”这也是为什么 Presto 能够获得比 Hive 低几个数量级延迟的主要原因之一。但是由于 Stinger 项目给 Hive 12 带来的性能改善,因此 Presto 与 Hive 12 间孰优孰劣目前尚且不明,正如 Ashish 所描述的一样:

Hive 肯定也会变得更快。我们已经进行了一些初步的测试,很快就会在博客中公布测试的结果。

就其可扩展性方面来说,应用在 Facebook 的 300PB 规模的数据仓库系统中的这一事实充分证明了它的可靠性。另外其他一些公司,例如 AirBnb Dropbox ,也都开始采用 Presto,“在我们的绝大多数用例中,它都比 Hive 要快一个数量级”,Dropbox 的线上分析经理 Christopher Gutierrez 如是说。

伴随着 Qubole 这个新服务的发布,Presto 社区将会进一步发展壮大,就连 Siva Narayanan 这样的 Qubole 开发者都在 Presto 群组中表示他们“打算做 Presto 王国中的好市民,并且期待着为 Presto 项目的主干贡献补丁和功能”。凭借着 GitHub 上超过 2000 颗星和 350 次的分支,Presto 项目已经变得比其他类似的并且更早的开源项目(例如 Impala )更为流行。

查看英文原文: Presto 即服务:AWS 上的交互式 SQL 查询


感谢梅雪松对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-17 07:332370

评论

发布
暂无评论
发现更多内容

[杂谈]谷歌浏览器 XSwitch 插件 - 解决本地请求转发

alexgaoyh

浏览器 插件 请求转发 本地请求 xswitch

求你看完再去面试!涨薪必备分布式事务小抄,狂怼面试官

程序知音

Java 分布式 后端 java架构 Java进阶

一文读懂物联网 MQTT 协议之实战篇

老周聊架构

三周年连更

AI视觉实战1:实时人脸检测

轻口味

android AI 三周年连更

华为云数据灾备解决方案,助力企业守好安全防线

YG科技

薪资结构重铸: Zebec将业务范围扩大到Web2薪资管理领域

西柚子

什么是前端开发领域的 Cumulative Layout Shift 问题

汪子熙

typescript 前端开发 angular web socket 三周年连更

全栈开发实战|​人事管理系统的设计与实现(Spring Boot + Vue 3 + MyBatis)

TiAmo

Spring Boot mybatis Vue 3 全栈开发 三周年连更

华为云 OpenTiny 跨端、跨框架企业级开源组件库项目落地实践直播即将开启!

Kagol

开源 前端 Vue 3 UI组件库

华为云数据灾备方案,做好企业数据的坚硬后盾

YG科技

华为云数据灾备,满足企业数据安全及业务连续性需求

YG科技

技术探讨 | YMatrix 如何将 TPC-H 性能提升 10 倍?

YMatrix 超融合数据库

数据库 开源数据库 性能提升 超融合数据库

Unity常用生命周期函数解析 - 超级详细,不服来辩

陈言必行

Unity 三周年连更

Android事件分发-基础原理和场景分析

京东科技开发者

android Activity View 企业号 4 月 PK 榜 ViewGroup

直播预告 | 时序数据处理的云端利器:TDengine Cloud 详解与演示

TDengine

tdengine 时序数据库 云服务

小程序自定义组件开发

程序员海军

小程序 三周年连更

生活中的不确定性,如何应对?

Jack

有没有那么一瞬间,你也曾有过“失业焦虑”呢?| 社区征文

架构精进之路

技术创新 职业发展 三周年征文 三周年连更

AI能训练出符合“核心价值观”的人工智能吗?

FN0

人工智能 ChatGPT Claude

什么是 API 接口测试

AREX 中文社区

测试 自动化测试 接口测试 回归测试

【数据中台商业化】数据中台微前端实践

京东科技开发者

数据中台 微前端 iframe 微前端框架

容易忽视的细节:Log4j 配置导致的零点接口严重超时

vivo互联网技术

问题排查 接口超时 线程block

Qz学算法-数据结构篇(稀疏数组、队列)

浅辄

数据结构 队列 稀疏矩阵 三周年连更

跨平台应用开发进阶(五十二):安全合规之Android APP完整性校验机制探究

No Silver Bullet

android 安全合规 跨平台应用开发 三周年连更 APP完整性

Android动画之帧动画

梦笔生花

android App 三周年连更

J2EE,Java EE,Jakarta EE 命名之间的恩恩怨怨

HoneyMoose

Java 依赖注入(DI)

HoneyMoose

音视频开发_获取媒体文件的详细信息

DS小龙哥

三周年连更

Django笔记十二之defer、only指定返回字段

Hunter熊

Python django defer only

组件必知必会|那些年我们使用过的轮子—Filter和Proxy

浅羽技术

javaWeb Proxy 过滤器 组件 三周年连更

《一文带你看懂:如何进行一次高质量CR》

后台技术汇

代码评审 三周年连更

Presto即服务:AWS上的交互式SQL查询_DevOps & 平台工程_Charles Menguy_InfoQ精选文章