写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:282758
用户头像

发布了 92 篇内容, 共 48.2 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

FastApi-10-Example

Python研究所

FastApi 8月日更

B轮融资逾2亿高瓴创投领投,最懂金融的RPA厂商金智维有何不凡之处?

王吉伟频道

RPA 金融科技 机器人流程自动化 做市机器人 金智维

老弟做了个网盘,炸了!

程序员鱼皮

Java c++ 系统设计 后端

SphereEx 登陆 ApacheCon Asia|依托 ShardingSphere 可插拔架构体系打造数据应用完整生态

SphereEx

数据库 开源

北鲲云告诉你足够的存储空间在高性能计算有多重要

北鲲云

牛啊!长这么大还是头一次见24W字的SpringBoot从入门到实战文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

融云为WICC2021“新视界”带来视频压缩技术新探索

融云 RongCloud

别慌!阿里专家破SpringBoot:入门+基础+进阶+项目

Java spring 程序员 架构 面试

你敢信?清华毕业大佬用了一个坦克大战项目就讲完了23种设计模式

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

2021年8月国产数据库排行榜:TiDB稳榜首,达梦返前三,Kingbase进十强,各厂商加速布局云生态

墨天轮

数据库 opengauss TiDB oceanbase 国产数据库

国家电网调控人工智能创新大赛开启 百度飞桨提供国产AI平台

百度大脑

人工智能 飞桨

25岁阿里120W年薪架构师推荐学习的750页微服务架构深度解析文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

疫情闭关期间,读完这些“Java技术栈”,拿下阿里Offer没问题

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

搞深度学习框架的那帮人,不是疯子,就是骗子

博文视点Broadview

运维日志审计是什么意思?用什么工具好?

行云管家

信息安全 堡垒机 日志审计 运维日志 安全事故

一周信创舆情观察(8.2~8.8)

统小信uos

解决「停车难」,EMQ 映云科技数据接入方案在智慧停车平台中的应用

EMQ映云科技

大数据 物联网 移动互联网 智慧交通 emq

Debian 10 安装 phpMyAdmin

Tao

MySQL 服务器 PHP-FPM MariaDB Debian

MySQL 系列教程之(一)初识 MySQL

若尘

MySQL 8月日更

七面阿里淘宝,工程项目经验为0,所以被死磕Java,最终拿p7职级

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

【LeetCode】二叉树的镜像Java题解

Albert

算法 LeetCode 8月日更

3 条掏心掏肺的建议,新手学习编程必备,快上车!

沉默王二

编程

Compose 中的 ConstraintLayout

Changing Lin

8月日更

学习笔记:HTTP消息的响应码

姬翔

主打年轻群体,2022款欧拉黑/白猫6.98万元起正式预售!

科技热闻

Linux云计算-MySQL-表操作-索引-外键-视图

学神来啦

MySQL 数据库 Linux 运维

源码级深挖AQS队列同步器

码农参上

AQS 锁机制 8月日更

校庆小程序开发案例与部署实践

CC同学

WICC 2021技术分论坛 融云解析全球一体化通信网络架构

融云 RongCloud

🏆【SpringBoot 技术专题】「Tomcat技术专区」用正确的姿势如何用外置tomcat配置及运行(Tomcat优化分析)

码界西柚

tomcat springboot 8月日更

马士兵老师亲自总结3000+道Java面试题,刷完吊打架构师面试官

Java架构追梦

Java 架构 面试 java架构师

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章