写点什么

Apache Iceberg 赢得未来:2025 年如何前进

  • 2025-01-16
    北京
  • 本文字数:2084 字

    阅读完需:约 7 分钟

Apache Iceberg 赢得未来:2025 年如何前进

作者 | 吴英骏



多年来,数据工程社区一直在争论开放表格式(Open table formats )的未来。是 Delta Lake 凭借与 Databricks 的紧密集成取得胜利?还是 Apache Hudi 利用在流处理领域的早期优势脱颖而出?亦或是 Apache Iceberg 悄然崛起,成为行业主导者?


2024 年底,答案已经明了。Databricks 收购了由 Iceberg 原始创建者成立的公司 Tabular,这表明了其对 Iceberg 潜力的高度认可。同时,Snowflake 推出了基于 Iceberg 的目录服务 Polaris。再加上 Starburst 和 Dremio 等知名查询引擎厂商对 Polaris 的支持,整个行业逐渐达成了共识——Apache Iceberg 成为事实上的开放表格式标准。


但这仅仅是故事的开始,展望 2025 年,多个关键发展将进一步巩固 Iceberg 在现代数据工程中的地位。


2025 年 Iceberg 的关键演进


1. RBAC 目录:解决大规模权限管理问题


我们的不得不承认,由于缺乏统一的标准和方法,数据湖中的权限管理一直以来都非常混乱。用户可能会在 S3 存储桶级别设置权限,也可能依赖查询引擎特定的访问控制机制,亦或是其他方法。这种不统一的权限管理方式不仅效率低下,还带来了安全风险。


Iceberg 社区正在通过一个新的 OpenAPI 规范(PR #10722)着手解决这一问题。该规范标准化了凭证结构,使开发者能够直接在 Iceberg 目录中构建基于角色的访问控制(RBAC)系统。


例如,管理员可以在目录级别定义精细的访问策略,而无需依赖底层存储或查询引擎。这些功能与 Databricks 的 Unity Catalog 等企业级特性类似,但同时具备 Iceberg 的开放性和灵活性。


2. 变更数据捕获(CDC):Iceberg 的流处理演进


“Iceberg 不适合流处理”这一观点在过去颇为流行。确实,Iceberg 缺乏强大的 CDC 功能。尽管其架构支持版本化的表快照(Spark CDC 操作),但并未针对高频数据变化或实时分析进行优化。


这种情况将在 Iceberg Spec V3 中得到改变,该版本引入了一项关键功能:行级谱系(Row Lineage)


行级谱系使 Iceberg 能够跟踪每一行数据的更新、删除或插入变更。这使得在 Iceberg 表上直接实现高效的 CDC 管道成为可能,对于流处理场景来说,这是一个巨大的进步。例如,物化视图维护和系统间的数据同步将更加顺畅。


更多详情可查看 《行级谱系》规范提案。一旦 Spec V3 完全实现,Iceberg 将在实时数据处理领域与 Kafka 和 Hudi 等传统以流处理为核心的系统展开竞争。


3. 物化视图:简化衍生数据


数据湖是存储原始历史数据(通常称为 Bronze Data)的地方。这些表的数量庞大且更新并不频繁,但真正有价值的是从这些原始数据中计算出的衍生数据集,如聚合、转换和预计算的指标。


迄今为止,Iceberg 缺乏对物化视图的内置支持,用户不得不依赖外部系统或定制方案来管理衍生数据。这带来了两个主要挑战:


  • 跟踪基础表与衍生表之间的依赖关系十分繁琐。

  • 对基础表的任何更新都需要重新计算衍生数据。


计划中的物化视图功能(PR #11041)将改变这一现状。通过物化视图,预计算结果将以表格形式存储,Iceberg 将管理跟踪依赖关系所需的元数据。这不仅意味着更高的查询性能,还能在基础表变化时自动更新衍生数据。


Iceberg 的扩张


随着 Iceberg 的不断发展,其生态系统也在扩展。以下是 2025 年值得关注的几个领域:


  • 新数据类型:支持带有时区的纳秒级精度时间戳,将使 Iceberg 适用于金融、电信等对高精度数据要求较高的行业。

  • 二进制删除向量:Spec V3 引入了一种可扩展且高效的删除方案,特别适用于法规要求或 GDPR 合规

  • 更广泛的查询引擎支持:RisingWave、Trino、Dremio 和 Flink 是一些正在积极增强其 Iceberg 集成的引擎。


Iceberg 的短板


Iceberg 的生态系统已经相当完善。用户可以通过 Kafka 或 Postgres 协议(借助 RisingWave)导入数据,并使用各种引擎查询。但一个明显的短板是缺乏:轻量级压缩


目前,压缩通常依赖于繁重的 Spark 作业,而这对于小型团队或小型工作负载来说可能过于复杂。对于希望采用更简单、资源效率更高的方式压缩 Iceberg 表的 SQL 和 Python 用户来说,这形成了一个障碍。


好消息是,社区已经意识到这一问题,并且对于构建一个轻量级、与引擎无关的压缩框架产生了越来越大的兴趣。希望 2025 年,能够推出让 Iceberg 对所有用户更加易用的解决方案。


前路展望


凭借 RBAC 目录、具备流处理能力、物化视图以及对新数据类型的支持等创新,Apache Iceberg 会逐渐巩固作为数据工程领域开放表格式标准的地位。


2024 年证明 Iceberg 能够赢得表格式之争。到了 2025 年,重点将转向让它变得更好、更快、更易用,不论是对于小型初创公司还是全球企业。无论您是在构建实时分析管道,管理 PB 级的历史数据,还是探索最前沿的数据湖仓架构,Iceberg 都能为您提供价值。


数据工程的未来已经到来,而它正是 Iceberg。


今日好文推荐


伪装“计算机工程师”窃取 TB 级数据勒索 25 万美元!前 FBI 特工解析 AI 时代安全危机


机器比人靠谱!Meta 耗时4年半,将 Java 代码转成 Kotlin:进度刚过半,真正难搞的还没开始


Airbnb死磕React Native惨败,微软却玩出花!Office、Outlook全线接入,Copilot成最大赢家


AI 开始明抢人类饭碗了!公司全员 AI 化,只重用“工程”背景员工,是转型新风向还是烧家具取暖?


2025-01-16 18:3610026

评论

发布
暂无评论

Microsoft 365 for Mac(原Office 365) v16.79正式版

展初云

Mac Office Microsoft 365 办公软件

从“用数据说话”到“让数据说话”,全面数据服务焕发酒店生意新生

用友BIP

数据资产

医院智慧运营管理转型,到底应该如何推动?

用友BIP

TechTool Pro 18 for mac硬件监测和系统诊断工具

展初云

Mac 系统维护软件

图像和文档透明显示软件 Overlay激活版最新

胖墩儿不胖y

Mac软件

数据查询慢?别着急,读个执行计划定位优化下

NebulaGraph

性能优化 图数据库 NebulaGraph

IPQ9574 IPQ9554 /QCN9274 / QCN6274  limitless- speed, endless possibility, new WiFi 7

wifi6-yiyi

WiFi7 ipq9574

语言与图像预训练的强大模型

百度开发者中心

人工智能 深度学习 nlp

「智造」第7期:浅谈工业生产设备采集方式

用友BIP

智能制造

【专家观点】社会化架构支撑产业链服务

用友BIP

产业链

基于 Amazon EKS 搭建开源向量数据库 Milvus

亚马逊云科技 (Amazon Web Services)

向量数据库 大语言模型

光纤接入网的方式有哪几种?

小魏写代码

零一万物回应「抄袭 LLaMA」;京东原副总裁试用可穿戴人工喉丨 RTE 开发者日报 Vol.85

声网

用PHP使用API接口获取虾皮商品详情

Noah

冰点还原精灵Deep Freeze for mac

展初云

Mac 系统恢复 冰点还原精灵

Infuse for Mac(音视频播放器) 7.6.3永久激活版

mac

苹果mac Windows软件 Infuse 多媒体播放器

添添闺蜜机销量超12000台,市场领先优势进一步凸显

新消费日报

我终于学会的前端技能——代码调试、打断点

小白Coding日志

Vue 前端 vscode JavaScrip debugger

从 MLOps 到 LMOps 的关键技术嬗变

Baidu AICLOUD

大模型 LLMOps 千帆大模型平台 LMops

【云栖2023】姜伟华:Hologres Serverless之路——揭秘弹性计算组

阿里云大数据AI技术

大数据

阿里云宕机带来的稳定性思考

老张

混沌工程 全链路压测 稳定性保障

油猴Safari浏览器插件 Tampermonkey最新中文版

mac大玩家j

Mac软件 油猴插件

Linux系统中软链接和硬链接

高端章鱼哥

Linux 软链接

C++异常处理:如何使用try、catch、throw

互联网工科生

C++

大模型在数据分析场景下的能力评测|进阶篇

Kyligence

数据分析 指标平台

神秘的SQL AST抽象语法树

张磊

sql AST 语法树

五大场景,助力煤炭行业设备资产数智化管理

用友BIP

资产管理

用友力量!三峡、中粮、云投等众多央国企成功上线数智化领先实践项目

用友BIP

企业数智化

电脑网站支付报错“验签出错,建议检查签名字符串或私钥与应用公钥是否匹配”问题解决记录

盐焗代码虾

Java 支付宝报错 排查思路

Apache Iceberg 赢得未来:2025 年如何前进_数据湖仓_吴英骏_InfoQ精选文章