写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:504999
用户头像

发布了 761 篇内容, 共 510.0 次阅读, 收获喜欢 1570 次。

关注

评论

发布
暂无评论
发现更多内容

架构误区系列3:单元测试依赖外部环境

agnostic

测试 单元测试

跟着卷卷龙一起学Camera--噪声与去噪01

卷卷龙

ISP camera 11月月更

基于 docker-compose 实现对 Nginx+Tomcat Web 服务的单机编排

忙着长大#

Docker-compose

第九期 - 模块六

wuli洋

什么是缓存击穿、缓存穿透、缓存雪崩?如何解决?

闫同学

redis 缓存 11月月更

跟着卷卷龙一起学Camera--低延迟05

卷卷龙

ISP camera 11月月更

分布式系统设计理论之一致性哈希

闫同学

一致性哈希 分布式设计 11月月更

刨根问底 Redis, 面试过程真好使

蔡农曰

Java 编程 面试 后端

Java实现List去重的5种方式

共饮一杯无

Java List 11月月更

mysql的一些基础知识

我是一个茶壶

MySQL 安全 11月月更

Python进阶(三十一)往MySQL数据库里添加数据,update和insert效率分析

No Silver Bullet

Python MySQL 数据操作 11月月更

深入理解客户端篇之 Jedis

邱学喆

redis jedis客户端

Helm部署和体验jenkins

程序员欣宸

Kubernetes Helm jenkins 11月月更

Kafka资料

Joseph295

Python进阶(三十)Python3实现随机数

No Silver Bullet

Python 随机数 11月月更

Python进阶(三十三)Python获取并输出当前日期时间

No Silver Bullet

Python 日期处理 11月月更

探知数字化研发3 - 思维篇

薛飞

跟着卷卷龙一起学Camera--低延迟06

卷卷龙

ISP camera 11月月更

极客时间运维进阶训练营第三周作业

忙着长大#

极客时间

【LeetCode】最短的桥Java题解

Albert

算法 LeetCode 11月月更

抖音"凶猛"的幕后英雄,火山引擎DataTester累计做过150万次A/B测试

字节跳动数据平台

字节跳动 算法 AB实验 产品优化 实验科学

The Availability and Performance analytics of Sina Weibo comment

David

架构实战营

Java Web(八)JSP

浅辄

javaWeb jsp 11月月更

企业级业务架构设计:方法论与实践学习笔记二

程序员架构进阶

架构 业务架构 11月日更 11月月更

Spring 5(一)概述

浅辄

Java Spring5 11月月更

数据预处理和特征工程-特征选择-相关性过滤-卡方过滤

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

架构误区系列2:exactly once的消息中间件不需要考虑消息重投

agnostic

消息中间件

SAP Hybris Category 显示在 Storefront 的判定条件

汪子熙

Java SAP Hybris commerce 11月月更

部署vue项目到Linux服务器

Studying_swz

Linux Vue 11月月更

Vue基础学习(六)

Studying_swz

Vue 11月月更

深入浅出建造者模式-干货!

闫同学

设计模式 11月月更

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章