QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505028
用户头像

发布了 773 篇内容, 共 525.1 次阅读, 收获喜欢 1578 次。

关注

评论

发布
暂无评论
发现更多内容

利用混沌工程提高微服务的弹性

NGINX开源社区

nginx 微服务架构 性能 企业号 2 月 PK 榜

4-业务架构师眼中的需求是什么?

涛哥 数字产品和业务架构

业务架构 业务需求

共攀元宇宙新高峰,2月14日沈阳元宇宙产业峰会邀您携手领跑2023

华为云开发者联盟

华为云 元宇宙 企业号 2 月 PK 榜 华为云开发者联盟 VR开发

关于Zebec生态的改进提案,以及即将上线的 Nautilus 链

股市老人

如何用一套代码运行跨多操作系统应用

HarmonyOS开发者

HarmonyOS

ONES 通过国内最权威信息安全等级认证——等保三级

万事ONES

NFT铸造系统模式开发定制

开发微hkkf5566

大数据培训学习怎么入门

小谷哥

落地DevOps的三要素

老张

DevOps 软件工程 研发效能 交付质量

Flutter 生成运行小程序的混合App开发实践

FinFish

flutter 移动开发 小程序技术 混合app

舞台LED显示屏使用禁忌

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

高性能图像处理的新利器——FlyCV

飞桨PaddlePaddle

paddle 飞桨 flycv

巧用Maya轴心操作小技巧,工作事半功倍!

3DCAT实时渲染

Maya,渲染 Autodesk Maya

干货分享 | 3个Zbrush实用减面工具分享

3DCAT实时渲染

3D渲染 3D模型

火山引擎DataTester“智能发布”:覆盖产品研发、测试、上线全流程,一站式智能管理A/B实验

字节跳动数据平台

大数据 AB testing实战 企业号 2 月 PK 榜

换个角度理解计算机网络,搭建计网知识框架

Java全栈架构师

程序员 面试 计算机网络 架构师 tcpip

前端技术培训学习哪个机构好?

小谷哥

优化数仓业务视图:过滤条件传递

华为云开发者联盟

数据库 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

云端智创 | 聚焦云剪辑核心,一文详述智能生产全链路

阿里云CloudImagine

云计算 视频云 智能媒体生产

怎么正确使用 NPS ?用对了才事半功倍

鼎道智联

运营 用户体验 用户推荐

下一朵云,会是谁

ToB行业头条

君子动手不动口,FinClip 喊你做超级体验官啦!

FinClip

深圳双机热备软件厂商哪家好?咨询电话多少?

行云管家

高可用 系统故障 双机热备

YOLOv8来啦!YOLO内卷期模型怎么选?9+款AI硬件如何快速部署?深度解析

飞桨PaddlePaddle

paddle yolo 飞桨

干货分享 | UE游戏鼠标双击判定

3DCAT实时渲染

游戏开发 虚幻引擎 ue 游戏开发引擎

关于Zebec生态的改进提案,即将上线的 Nautilus 链

西柚子

尚硅谷发布九章云台项目视频

小谷哥

前端线下面授培训机构的选择

小谷哥

如何通俗理解信创国产化是什么意思?有哪些系统?有什么意义?

行云管家

信创 堡垒机 国产操作系统

BI 仪表板/数据可视化大屏最全面的设计流程梳理

搞大屏的小北

需求分析 业务场景分析 BI 分析工具 可视化数据 BI 报表

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章