写点什么

Apache Kylin:基于 Hadoop 的 OLAP 引擎

  • 2016-10-12
  • 本文字数:1369 字

    阅读完需:约 4 分钟

传统上,Hadoop(包括 MapReduce,Pig 以及 Hive)通常用于外部私有

OLAP Cube 引擎准备数据。如今,Zaloni 的客户基于

Apache Kylin 的 OLAP 技术实现了实时查询的能力,这些 Cube 的事实表包含了 400 亿条以上的原始数据。我们正在帮助客户统一归集来自于多个独立系统的账单数据,并构建 OLAP Cube 以支持实时分析,这是以前系统所无法实现的。现在,Hadoop 集群都可以做到了。

基于 ****Hadoop 的分析演化

Hadoop 已经从通用计算能力(MapReduce)的分布式数据平台演化为一个更强大的平台。Hadoop 及其生态系统已经有能力处理更广泛的用例,远超最初设计时的低成本分布式批处理能力。支持了从迭代式的机器学习算法,到

OLAP

OLTP 系统,这些基于“hadoop 集群”的开源分析能力给传统的大玩家们(Oralce,SAS,Teradata,IBM 等)带来了很大的压力。

为规模设计

Apache Kylin 是开源的多维在线分析处理引擎(MOLAP),名字来源于中国的一种神兽“麒麟”。项目最初诞生于 eBay,专为分析处理 PB 级数据集而设计。这里引用一段

Apache 基金会 2015 年 12 月的 Blog:“Apche Kylin 是目前为止大数据领域最好的 OLAP 引擎”,eBay 数据服务与解决方案部门高级总监 Wilson Pang 说到,“在 eBay,我们收集用户在每一个页面的每一个行为。当其他 OLAP 引擎挣扎于数据量的极大膨胀时,Kylin 可以在毫秒级获得查询响应。除此之外,基于 Kylin 我们还实现了近实时的数据流存储和分析。总之,Kylin 在 eBay 产品分析平台中扮演了至关重要的后台核心组件角色。”

如何工作

Kylin 通过预计算实现查询速度的提升,利用

Hive 查询计算多个维度的组合(译者注:此处原文有误,正确应为,Kylin 是通过 Hive 获取数据源,并利用 MapReduce 计算多个维度的任意组合),计算各类指标的聚合值,并将这些中间结果保存在

HBase 中。Kylin 拥有用户友好的查询界面,也支持通过 API 和 JDBC、ODBC 提交查询。查询引擎基于

Apache Calcite 查询处理器和 HBase 的检索功能(比如 fuzzy row filters)实现结果集快速获取。HBase 的 rowkeys 利用

Trie Data Structure 技术实现维度字段字典数据的高效压缩。

当前,Kylin 只支持

星型模型,因此每个Cube 只能有单一的事实表。

建模**** 向导

设计Cube 很容易。假设你已经有了一张Hive 的表,建模向导将帮助你一步步走完设计的流程,包括选择维度(包括层级维度),选择维表,选择指标等。也支持按照日期时间分区,使得Cube 分段刷新易如反掌,这广泛用在了流数据的增量式构建。一旦Cube 定义好了,我们通过Kylin 的监控界面查看Cube 的构建进度。

除了原生的Kylin Web 界面,你可以通过JDBC 查询OLAP Cube,也可以通过Zeppelin(Zeppelin 已经内置了Kylin 的解释器),或者设计良好的REST API。

基于Hadoop 的****OLAP 的其他选项

Kylin 是基于 Hadoop 的 OLAP 技术的一个开源选项。

Apache Lens 是另一个,它是一个

ROLAP 解决方案,并不能实现 Kylin 这种预计算技术所能达到的快速查询响应能力。

Druid 也是一个选项,它采用了自己的集群技术(并不依赖 Hadoop)。也有一些第三方的解决方案,声称支持 Hadoop 之上的 OLAP 能力。

作者:Craig Lukasi,本文已获翻译授权。

译者:刘一鸣(Billy Liu), 现任 Kyligence 产品负责人,负责 Apache Kylin 企业级版本及其他产品的规划和设计。Kyligence 是由 Apache Kylin 核心团队创立的创业公司。

2016-10-12 21:293761

评论

发布
暂无评论
发现更多内容

实现分区表性能提升超10倍,解密TDSQL PG版开源升级特性

腾讯云数据库

tdsql 国产数据库

Linux之du命令

入门小站

Linux

针对jQuery的优化方法有哪些

编程江湖

jquery

全面容器化之后,来电科技如何实现微服务治理?

阿里巴巴云原生

阿里云 微服务 云原生 实践

云原生+国产化,腾讯云数据库不做选择题

腾讯云数据库

tdsql 国产数据库

开源数据库TDSQL PG版再升级:分区表性能提升超10倍

腾讯云数据库

tdsql 国产数据库

建议收藏 | SpringBoot 元数据配置原来可以这么玩!

李尚智

spring springboot SpringBoot 2 java 编程 1月月更

技术解析 | 即构移动端超分辨率技术

ZEGO即构

计算机视觉 音视频 视频超分

无服务器应用DevOps最新实践(内附完整演讲+视频)

亚马逊云科技 (Amazon Web Services)

计算

高成长、高潜力,火线安全入选2021中国新锐技术先锋企业20强!

火线安全

知识中台,驱动产业智能化升级

百度大脑

人工智能

【Redis集群原理专题】分析一下相关的Redis服务分片技术和Hash Tag

洛神灬殇

redis redis cluster redis架构 1月月更

使用Amazon CDK部署基于Amazon Fargate的高可用、易扩展的Airflow集群

亚马逊云科技 (Amazon Web Services)

计算

4种高速安全混合云解决方案,助力您的云迁移之旅!

亚马逊云科技 (Amazon Web Services)

计算

前端开发之VUE基础面试题分享

@零度

Vue 前端开发

Tomcat系统架构分析-Service

编程江湖

tomcat

使用CRM系统改善客户关系的方法

低代码小观

企业管理 CRM ERP CRM系统 企业管理工具

增效降本开源节流,2022年技术趋势前瞻(异步编程/容器技术)

刘悦的技术博客

容器 性能 异步IO 异步削峰 成本优化

腾讯云TDSQL在PostgreSQL领域的‘‘再次突破’’

腾讯云数据库

tdsql 国产数据库

拍乐云首发音视频「分组讨论」开放能力,开启线上群聊互动新玩法

拍乐云Pano

音视频 RTC 视频会议 泛娱乐 分组讨论

在线正则表达式可视化测试工具

入门小站

工具

TDengine在蓝深远望电机物联网监测预警与预测性维护平台中的应用

TDengine

数据库 大数据 tdengine 物联网

理清逻辑,确保云原生时代应用开发的全生命周期安全

华为云开发者联盟

网络安全 安全 应用开发 安全防守

企业聊天APP-有什么作用,可以带来哪些便利?WorkPlus即时通讯

BeeWorks

Mybatis如何执行批量操作

编程江湖

mybatis

选择“难而正确”的道路,国内VPN距离突破瓶颈还有多远?

科技热闻

隐喻回顾会

Bruce Talk

敏捷 Agile 回顾会 Coach/Facilitate

大数据开发之Hadoop高频面试题

@零度

大数据 hadoop

青藤成功举办“ATT&CK应用发展论坛”,并发布《ATT&CK框架实践指南》

青藤云安全

趋势:2022 年 AI 五大预测

BeeWorks

🍃【Spring专题】「技术原理」为大家介绍一下Spring中的Ant路径匹配工具组件AntPathMatcher

洛神灬殇

spring 1月月更 SpringFramework AntPathMatcher

Apache Kylin:基于Hadoop的OLAP引擎_DevOps & 平台工程_Craig Lukasi_InfoQ精选文章