写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:504901
用户头像

发布了 723 篇内容, 共 460.5 次阅读, 收获喜欢 1538 次。

关注

评论

发布
暂无评论
发现更多内容

HDFS Block状态转移详解

Joseph295

频面试题合集

helloworld1024fd

JavaScript 前端

腾讯前端二面面试题(附答案)

beifeng1996

JavaScript 前端

关于 HBase

Joseph295

Java基础知识之数组

喜羊羊

9月月更

关于AWS Aurora

Joseph295

数据治理(十五):Ranger 管理 Hive 安全

Lansonli

数据治理 9月月更

还能把浏览器当作 Web 服务器?骚操作,学废了~

掘金安东尼

前端 9月月更

美团前端二面高频面试题合集

loveX001

JavaScript 前端

社招前端二面面试题

夏天的味道123

JavaScript 前端

「趣学前端」“寓教于乐”的Node.js学习记录

叶一一

node.js 前端 9月月更

性能:顶尖高手必备

Joseph295

架构实战营模块七作业

zhihai.tu

分布式事务解决思想以及实现方案

想要飞的猪

3PC 2PC注意事项 TCC 本地消息表

OpenHarmony源码的编译构建

坚果

OpenHarmony 9月月更

基于阿里云GPU云服务器的AIACC助力UC搜索业务性能提效380%,每年节省数千万成本

阿里云弹性计算

神龙 加速引擎 TensorRT QTC

社招前端必会面试题

bb_xiaxia1998

JavaScript 前端

手部骨骼跟踪能力,打造控制虚拟世界的手势密码

HarmonyOS SDK

【Vue】Vue项目需求--实现搜索框输入防抖处理

Sam9029

JavaScript Vue 前端 9月月更

Java基础语法知识点 1

喜羊羊

9月月更

关于 DynamoDB

Joseph295

Qt实现文本编辑器(二)

中国好公民st

c++ qt 9月月更

库调多了,都忘了最基础的概念《Mysql相关知识》

知识浅谈

MySQL 9月月更

面向对象、DDD与设计模式

Joseph295

SpringCloud Feign 远程调用(史上最详细讲解)

SpringCloud Fegin 9月月更

Kafka 最重要的 10 issues 详解

Joseph295

近期对前端性能优化的总结

南城FE

性能优化 前端 性能 性能提升

Elasticsearch聚合学习之一:基本操作

程序员欣宸

Elastic Search 9月月更

nft平台搭建:nft商城开发nft平台开发

开源直播系统源码

NFT 数字藏品 数字藏品开发 数字藏品系统

『数据结构与算法』之时间复杂度与空间复杂度,看这一篇就够啦

喜羊羊

9月月更

Python基础(三) | Python的组合数据类型

timerring

Python. 9月月更

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章