报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Apache Hudi 1.0 正式发布

  • 2025-01-28
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Apache Hudi 1.0 正式发布

最近,Apache 软件基金会宣布 Apache Hudi 1.0 正式发布。这是一个支持近实时分析的事务型数据湖平台,最初于 2017 年推出。Apache Hudi 提供了一种做过专门优化的开放式表格式,可实现增量数据管道的高效写入,提供可靠的查询性能。


最初,Hudi 是作为 Apache Hadoop 上的增量处理框架在 Uber 开发的,并于 2019 年提交给 Apache 软件基金会,旨在弥合类似数据库的功能与开放的数据湖架构之间的差距。Hudi 的主要优势在于能够同时支持近实时查询和批量查询。


最新版本引入的新特性旨在将数据湖转化为项目社区所认为的完备的 “数据湖管理系统”(DLMS)。Uber Hudi 项目创建者、Onehouse 首席执行官 Vinoth Chandar 写道:


Hudi 的亮点在于提供了高性能的开放式表格格式以及全面的开源软件栈,可对数据湖进行摄取、存储、优化和有效的自管理。在 Hudi 所处的大型供应商生态系统中,开放格式和开放软件之间的区别经常被忽略。尽管如此,对于 Hudi 的用户来说,避免‍与任何特定的数据供应商的计算锁定仍然是一个重要的考虑因素。


Hudi 1.0 (遵循 Apache 2.0 许可)引入了新的二级索引系统,旨在提高查询性能并降低数据扫描成本。现在,用户可以在二级列上创建基于 SQL 的索引,从而大大加快查询执行速度。该版本还包括基于表达式的索引,和 PostgreSQL 中的一项功能类似,它取代了传统的分区策略,使数据组织更加灵活高效。去年,当预览版发布时,Snyk 首席软件工程师 Boris Litvak 曾经写道:


在对象存储的三大 ACID 存储格式中,Apache Hudi 1.0(测试版)是第一个引入数据 “函数索引 ”的格式。在 SQL DB 术语中,我们通常称之为 “二级索引”。Delta.io 和 Apache Iceberg 何时会跟进?



图片来源:Apache Hudi 博客


该版本引入了对部分更新的支持,允许对特定字段而不是整行进行更新,从而提高了存储和计算效率。此外,非阻塞并发控制使多个流作业可以写入同一个数据集,而且不会造成瓶颈或故障。在谈到数据库架构时,Chandar 补充道:


至于完备的 DLMS 功能,Hudi 1.0 可以通过 Apache Spark 提供最接近的体验。用户可以部署安装了 Hudi 1.0 的 Spark 服务器(或 Spark Connect),提交 SQL/ 任务,通过 SQL 命令协调表服务,尽情使用二级索引功能,从而像 DBMS 一样加快查询速度。


Hudi 1.0 增强了存储引擎,包括采用日志结构合并(LSM)树来实现高效的时间线管理。这样就可以支持长期数据保留,并确保高性能查询规划,即使是包含数十亿条记录的数据集也不例外。Onehouse 和 Apache Hudi PMC 软件工程师 Bhavani Sudha Saktheeswaran 评论 说:


无论是要构建开放式数据平台,将数据流导入数据湖仓,并摒弃数据仓库,还是要优化高性能查询,Hudi 1.0.0 都能让你比以往更轻松地使用数据湖仓。


在旧金山 QCon 大会上,Saktheeswaran 和 Uber 软件工程师 Saketh Chintapalli 发表了关于使用 Apache Hudi 进行增量数据处理的演讲。会议录音可从 InfoQ 上获取。


原文链接:

https://www.infoq.com/news/2025/01/apache-hudi/

2025-01-28 08:0019657

评论

发布
暂无评论

外包学生管理系统的架构设计

架构0期-Bingo

网络攻防学习笔记 Day91

穿过生命散发芬芳

网络攻防 7月日更

java 虐“狗”日常

喵叔

7月日更

极客时间-大数据-作业三-HBase 创建表

西伯利亚鼯鼠

操作系统--虚拟内存

en

程序员有哪些不可或缺的效率神器?

Jackpop

开发

区块链产业政策红利加速释放

CECBC

网络安全现状,一个黑客真实的收入

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞分析

熬夜整理的c/c++万字总结(一)

C语言与CPP编程

c c++

各国纷纷推出数字货币,数字货币发展正当其时

CECBC

「SQL数据分析系列」13. 索引和约束

Databri_AI

sql 分布式

Vue进阶(幺柒柒):Vue 应用 Sass、Scss、Less 和 Stylus

No Silver Bullet

Vue 7月日更 预处理器

牛客网爆火!面试命中率高达 90% 的阿里 10W 字面试笔记已被疯传

Java 程序员 架构 面试 计算机

Tensorflow日常随笔(一)

毛显新

tensorflow

Text classification with TensorFlow Hub: Movie reviews

毛显新

tensorflow

开发者必备神器,你真的会用吗?

Jackpop

Introduction to the Keras Tuner

毛显新

tensorflow

想要跳槽拿高薪,却没有大型性能调优经验怎么办?淘宝架构师手把手带你前进

Java架构师迁哥

音视频详细学习路线和权威资料

hanaper

音视频 ffmpeg 语音识别 语音合成 图形图像处理

详解Java内存模型

程序员阿杜

Java JVM Java虚拟机

程序员专属的搜索主页

程序员阿杜

搜索技巧 搜索引擎;

体验设计工具:18格窗口

石云升

用户体验 7月日更 体验设计

北鲲云超算平台如何提高高性能计算在云环境下的可行性?

北鲲云

揭开进程的概念、状态、通信的迷雾。看完瞬间豁然开朗

Linux服务器开发

线程 网络编程 Linux服务器开发 Linux后台开发 进程管理

Fil行情:什么时候投资fil合适?

区块链 分布式存储 IPFS fil fil行情

Druid 查询返回引擎版本困惑的地方

HoneyMoose

Vue进阶(幺陆陆):组件实例 $el 详解

No Silver Bullet

Vue 7月日更 $el

阿里面试官把以往的Java面试题全部总结在这份《Java10W字面试复盘笔记》里面了

Java 程序员 架构 面试 计算机

Drools 入门

LeifChen

drools 规则引擎 8月日更 业务规则

毕业总结

请弄脏我的身体

架构实战营

面试官:聊聊JVM吧?

程序员阿杜

Java JVM JVM原理

Apache Hudi 1.0 正式发布_数据湖仓_Renato Losio_InfoQ精选文章