2025 AI基础设施风向标,不看必后悔!#AI基础设施峰会 了解详情
写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:282748
用户头像

发布了 92 篇内容, 共 48.1 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

Python进阶(三十五)Fiddler命令行和HTTP断点调试

No Silver Bullet

Python fiddler 11月月更

问:你是如何进行react状态管理方案选择的?

beifeng1996

React

Map接口概述和基本使用

共饮一杯无

Java map 11月月更

谈谈前端性能优化-面试版

loveX001

JavaScript

Python进阶(三十四)Python3多线程解读

No Silver Bullet

多线程 Python3 11月月更

经常会采坑的javascript原型应试题

loveX001

JavaScript

Python进阶(三十六)Web框架Django项目搭建全过程

No Silver Bullet

Python django 11月月更

一份vue面试考点清单

bb_xiaxia1998

Vue

Ubuntu部署和体验Nexus3

程序员欣宸

Docker 11月月更 nexus3

CSS知识框架(一)

默默的成长

CSS 前端 11月月更

Map接口的子类HashMap和LinkedHashMap

共饮一杯无

Java 11月月更 Map集合

图学习初探Paddle Graph Learning 构建属于自己的图【系列三】

汀丶人工智能

图神经网络 11月月更 随机游走算法 异质图

Git学习笔记

lxmoe

git 学习笔记 常用命令 11月月更

【设计模式】原型模式:猴头,我叫你一声你敢答应吗?

游坦之

11月月更

中高级前端开发需要掌握的vue知识点

bb_xiaxia1998

Vue

Flowable 定时器的各种玩法

江南一点雨

Java spring springboot flowable JavaEE

HTML知识框架 二

默默的成长

html 前端 11月月更

一天梳理完react面试题

beifeng1996

React

问:React的useState和setState到底是同步还是异步呢?

beifeng1996

React

高频react面试题自检

beifeng1996

React

看透react源码之感受react的进化

goClient1992

React

Spring 5(四)JdbcTemplate

浅辄

Java Spring5 11月月更

【C语言】float 关键字

謓泽

11月月更

说说Vue响应式系统中的Watcher和Dep的关系-面试进阶

bb_xiaxia1998

Vue

React源码分析(一)Fiber

goClient1992

React

Spring 5(三)AOP

浅辄

Java Spring5 11月月更

说说你对Vue的keep-alive的理解

bb_xiaxia1998

Vue

深入react源码看setState究竟做了什么?

flyzz177

React

前端高频面试题合集(中高级必备)

loveX001

JavaScript

20道前端高频面试题(附答案)

loveX001

JavaScript

React-Hooks源码深度解读

goClient1992

React

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章