当地时间 8 月 29 日,Apache Iceberg的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular。
Apache Iceberg 是一个通用的表格式(数据组织格式),可以适配 Presto、Spark 等引擎提供高性能的读写和元数据管理功能。目前已被 Netflix、苹果、Adobe、LinkedIn、Expedia、Stripe 等公司采用。
“从根本上构建一个独立、云原生并且可以积极管理数据的平台,是我和其他联合创始人创建 Tabular 的初衷。”现任 Tabular 首席执行官的 Ryan Blue 表示。Ryan Blue 在其文章中指出当前数据基础设施主要存在两大缺点:
首先,数据湖充满陷阱和挫折,这让人们不得不成为解决各种古怪限制的专家,而不能专注在把事情做好上。删除一列数据可能会悄悄破坏查询结果,不知道应该向查询添加冗余过滤器可能会浪费分析师数天的时间,更不用说还增加了云成本。
其次,大数据生态系统一直在把问题推给错误的人。使用这些技术的人应该专注于构建相关和可靠的数据产品,但他们不得不浪费时间担心 SQL 会生成多少文件。数据基础设施应该做得更多,而不是要靠人来弥补它的许多差距。
Apache Iceberg 认为,节省时间和消除令人头痛的问题是数据基础设施的关键下一步。Blue 表示,Iceberg 哲学的核心是让人们开心:数据基础设施应该在没有令人不快的意外情况下正常工作。
Blue 表示,Tabular 将消除数据维护和优化难题。开发者可以使用 Iceberg 安全地自主构建管理表。数据平台可以提供更多的功能,包括压缩、集群、配置、索引等。
此前在 Netflix,Iceberg 使得从 Kafka 流入的数据在几分钟内便可以使用,而非原来的数小时。在此过程中,Netflix 将 Iceberg 开源出来并捐赠给了Apache 软件基金会。Tabular 承诺永远不会控制或伤害 Iceberg,并将为开源社区作出贡献。“Iceberg 的持续成功取决于建立了一个通用和开放标准的多元化社区。”Blue 表示。
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中 Iceberg 以自身独特的优势被越来越多开发者关注。
首先,Iceberg 的架构和实现没有绑定到某一特定引擎,实现了通用的数据组织格式,利用此格式可以与不同引擎(如 Flink、Hive、Spark)对接。其次,Iceberg 还有良好的架构和开放格式。相比于 Hudi、Delta Lake,Iceberg 的架构实现更为优雅,同时对于数据格式、类型系统有完备的定义和可进化的设计。此外,Iceberg 在数据组织方式上充分考虑了对象存储的特性,避免耗时的 listing 和 rename 操作,使其在基于对象存储的数据湖架构适配上更有优势。
评论