AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

Apache Hudi 1.0 正式发布

  • 2025-01-28
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Apache Hudi 1.0 正式发布

最近,Apache 软件基金会宣布 Apache Hudi 1.0 正式发布。这是一个支持近实时分析的事务型数据湖平台,最初于 2017 年推出。Apache Hudi 提供了一种做过专门优化的开放式表格式,可实现增量数据管道的高效写入,提供可靠的查询性能。


最初,Hudi 是作为 Apache Hadoop 上的增量处理框架在 Uber 开发的,并于 2019 年提交给 Apache 软件基金会,旨在弥合类似数据库的功能与开放的数据湖架构之间的差距。Hudi 的主要优势在于能够同时支持近实时查询和批量查询。


最新版本引入的新特性旨在将数据湖转化为项目社区所认为的完备的 “数据湖管理系统”(DLMS)。Uber Hudi 项目创建者、Onehouse 首席执行官 Vinoth Chandar 写道:


Hudi 的亮点在于提供了高性能的开放式表格格式以及全面的开源软件栈,可对数据湖进行摄取、存储、优化和有效的自管理。在 Hudi 所处的大型供应商生态系统中,开放格式和开放软件之间的区别经常被忽略。尽管如此,对于 Hudi 的用户来说,避免‍与任何特定的数据供应商的计算锁定仍然是一个重要的考虑因素。


Hudi 1.0 (遵循 Apache 2.0 许可)引入了新的二级索引系统,旨在提高查询性能并降低数据扫描成本。现在,用户可以在二级列上创建基于 SQL 的索引,从而大大加快查询执行速度。该版本还包括基于表达式的索引,和 PostgreSQL 中的一项功能类似,它取代了传统的分区策略,使数据组织更加灵活高效。去年,当预览版发布时,Snyk 首席软件工程师 Boris Litvak 曾经写道:


在对象存储的三大 ACID 存储格式中,Apache Hudi 1.0(测试版)是第一个引入数据 “函数索引 ”的格式。在 SQL DB 术语中,我们通常称之为 “二级索引”。Delta.io 和 Apache Iceberg 何时会跟进?



图片来源:Apache Hudi 博客


该版本引入了对部分更新的支持,允许对特定字段而不是整行进行更新,从而提高了存储和计算效率。此外,非阻塞并发控制使多个流作业可以写入同一个数据集,而且不会造成瓶颈或故障。在谈到数据库架构时,Chandar 补充道:


至于完备的 DLMS 功能,Hudi 1.0 可以通过 Apache Spark 提供最接近的体验。用户可以部署安装了 Hudi 1.0 的 Spark 服务器(或 Spark Connect),提交 SQL/ 任务,通过 SQL 命令协调表服务,尽情使用二级索引功能,从而像 DBMS 一样加快查询速度。


Hudi 1.0 增强了存储引擎,包括采用日志结构合并(LSM)树来实现高效的时间线管理。这样就可以支持长期数据保留,并确保高性能查询规划,即使是包含数十亿条记录的数据集也不例外。Onehouse 和 Apache Hudi PMC 软件工程师 Bhavani Sudha Saktheeswaran 评论 说:


无论是要构建开放式数据平台,将数据流导入数据湖仓,并摒弃数据仓库,还是要优化高性能查询,Hudi 1.0.0 都能让你比以往更轻松地使用数据湖仓。


在旧金山 QCon 大会上,Saktheeswaran 和 Uber 软件工程师 Saketh Chintapalli 发表了关于使用 Apache Hudi 进行增量数据处理的演讲。会议录音可从 InfoQ 上获取。


原文链接:

https://www.infoq.com/news/2025/01/apache-hudi/

2025-01-28 08:0021666

评论

发布
暂无评论

【玩转 RT-Thread】 RT-Thread Studio —— 按键控制电机正反转、蜂鸣器

攻城狮杰森

OS 7月月更 RT-Thread

风靡B站的《看漫画学Python》到底是什么来头?

博文视点Broadview

ORACLE进阶(五)SCHEMA解惑

No Silver Bullet

oracle schema 7月月更

开发一个小程序商城需要多少钱?

CRMEB

决策树算法

秃头小苏

决策树 7月月更

作战图鉴:12大场景详述容器安全建设要求

青藤云安全

网络安全 解决方案 容器安全

关于 Web Content-Security-Policy Directive 通过 meta 元素指定的一些测试用例

汪子熙

JavaScript 前端开发 CSP meta 7月月更

重磅!海泰方圆工业强基智能网联汽车项目顺利通过验收

电子信息发烧客

最佳实践 | 用腾讯云AI意愿核身为电话合规保驾护航

牵着蜗牛去散步

人工智能 腾讯云 腾讯 技术干货 电话合规

Linux透明大页机制在云上大规模集群实践介绍

百度Geek说

Linux 运维 linux 文件权限控制

Vue 灰度发布新功能的那些事

南城FE

Vue 前端 灰度发布 7月月更

wallys/Qualcomm IPQ8072A networking SBC supports dual 10GbE, WiFi 6

wallys-wifi6

IPQ8072 IPQ9072a

得物客服热线的演进之路

得物技术

大前端 客服

LeetCode-144. 二叉树的前序遍历(java)

bug菌

Leet Code 7月月更

【Python技能树共建】动态渲染页面爬取

梦想橡皮擦

Python 7月月更

Python|正则表达式

AXYZdong

Python 7月月更

【堡垒机】云堡垒机和普通堡垒机的区别是什么?

行云管家

云计算 数据安全 堡垒机 云堡垒机 IT安全

社会责任·价值共创,中关村网络安全与信息化产业联盟对话网信企业家海泰方圆董事长姜海舟先生

电子信息发烧客

小程序目录结构

小恺

7月月更

盘点JS判断空对象的几大方法

猪痞恶霸

前端 js 7月月更

交付效率提升52倍,运营效率提升10倍,看《金融云原生技术实践案例汇编》(附下载)

York

云原生 金融科技 金融行业

云计算安全扩展要求关注的安全目标和实现方式区分原则有哪些?

行云管家

云计算 等保 等保2.0 云计算安全扩展

2022PAGC 金帆奖 | 融云荣膺「年度杰出产品技术服务商」

融云 RongCloud

java零基础入门-Java正则表达式

喵手

Java 7月月更

Scala 基础 (六):面向对象(下篇)

百思不得小赵

scala 大数据 7月月更

如何参与开源项目 - 细说 GitHub 上的 PR 全过程

胡说云原生

GitHub 开源 pull request DevStream

系统入门-Linux系统基础命令

Albert Edison

7月月更

基于鲲鹏原生安全,打造安全可信的计算平台

极客天地

为租客提供帮助

源字节1号

微信小程序 软件开发 前端开发 后端开发 租房小程序

Apache Hudi 1.0 正式发布_数据湖仓_Renato Losio_InfoQ精选文章