AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

LinkedIn 开源 Cubert,着眼于大数据分析

  • 2014-12-21
  • 本文字数:634 字

    阅读完需:约 2 分钟

近日, LinkedIn 开源了一款用于复杂大数据分析的高性能计算引擎 Cubert 。这是为分析师和数据科学家编写的一个框架,提供“手动编写 Java 程序的所有效率优势,并提供了一个简单的、类似脚本的用户接口,用于解决各种统计、分析和图论问题”。其目标是,做上述所有工作而又不暴露底层细节。

Cubert 围绕着实现更好的数据处理算法需求而设计。当性能是一个辨别因素时,Cubert 可以提供帮助,正如 LinkedIn 工程师所声称的那样,即使从磁盘置换出数十 TB 大小的数据,其性能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert 使用 MeshJoin 算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但 CUBE 能加快这些运算,而且还可以计算准确的百分等级,如中位数统计,动态上卷内部维度以及在单个任务中计算多个度量值。

Cubert 最适合于重复的报表工作流程,它利用部分结果缓存和增量处理技术来提高速度。最后,一种新的稀疏矩阵乘法算法可以用于大型图的分析计算。

Pig UDF 支持已经实现,团队计划支持 UDF 以及来自 Pig 和 Hive 的存储层。Cubert 目前运行在 MR 引擎上,不过,对 Tez 和 Spark 的支持正在进行中。Cubert 的文档代码在GitHub 上提供。

查看英文原文: LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

2014-12-21 08:283840
用户头像

发布了 1008 篇内容, 共 389.2 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

中国协同办公服务软件,你更看好哪一款?

易观分析

协同办公软件

上海英方软件正式加入openGauss社区

openGauss

opengauss

上讯信息正式加入openGauss社区

openGauss

华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发

华为云开发者联盟

大数据 Serverless 数据湖 数据开发 华为云

经验分享 | 如何搭建FAQ/用户培训手册

小炮

运营 客户服务

Linux curl命令详解

学神来啦

云计算 Linux 运维 curl

星际营23期开始招募 门槛高,但是优秀项目可获得全额奖学金,敢来挑战吗?

创业邦

春季招聘|Rust开发工程师们,欢迎加入!

非凸科技

恒源云(GpuShare)_PRGC:基于潜在关系和全局对应的联合关系三元组抽取

恒源云

机器学习 深度学习 算法 知识图谱

openGauss助力中国移动获 “ICT优秀案例”

openGauss

opengauss

ENS 域名终极指南

devpoint

以太坊 eth 3月月更 ens

紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!

明哥的IT随笔

hdfs

web前端培训:WEB 安全相关面试题分享

@零度

前端开发 WEB安全

HAVE FUN | SOFARegistry 源码解析

SOFAStack

GitHub 开源 程序员 开发者 源码剖析

java培训:判断元素是不是在集合里的方法

@零度

JAVA开发

Redis现网那些坑:用个缓存,还要为磁盘故障买单?

华为云数据库小助手

redis GaussDB GaussDB ( for Redis ) 华为云数据库

Linux之netstat命令

入门小站

Linux

【有奖体验】:2分钟自动化部署2048小游戏到ECS

阿里云云效

阿里云 云原生 CI/CD 自动化部署 ECS

通过CRM系统提高生产力的技巧

低代码小观

企业管理 CRM 企业管理系统 CRM系统 客户关系管理系统

高精度轻量级目标检测产业应用,实现多类通信塔识别

百度大脑

[架构实战营] 模块9设计

Vincent

「架构实战营」

2022年3月中国数据库排行榜:TiDB “三连降”仍霸榜首,“常胜四将军”得分集体下跌

墨天轮

数据库 TiDB 国产数据库 KingBase gbase8a

大数据培训:偶然看到大数据面试题,拿出来分享

@零度

大数据 面试题

昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

华为云开发者联盟

强化学习 mindspore ai框架 图学习 昇思MindSpore

iOS应用性能数据采集原理和优化实践 | 详细版

云智慧AIOps社区

ios 性能优化 数据采集 Object-c 技术干货

极光笔记 | 基于Robotframework框架进行服务端SDK的自动化(C++版本)

极光JIGUANG

c++

《中国软件根技术发展白皮书(基础软件册)》发布!

openGauss

opengauss

详细解读阿里云开源PolarDB总体架构和企业级特性

阿里云数据库开源

数据库 阿里云 polarDB

英特尔以多元化至强产品路线图 助推行业强势发展

科技新消息

2022全网最详细的音视频开发学习路线,零基础到项目实战,从小白到音视频专家

Linux服务器开发

音视频 WebRTC ffmpeg 音视频开发 流媒体服务器开发

极速体验|使用 Erda 微服务观测接入 Jaeger Trace

尔达Erda

云计算 微服务 云原生 PaaS 分布式架构

LinkedIn开源Cubert,着眼于大数据分析_大数据_Alex Giamas_InfoQ精选文章