开源数据湖方案Apache Iceberg 成立公司，CEO：我们将消除数据维护和优化难题

当地时间 8 月 29 日，Apache Iceberg的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资，正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular。

Apache Iceberg 是一个通用的表格式（数据组织格式），可以适配 Presto、Spark 等引擎提供高性能的读写和元数据管理功能。目前已被 Netflix、苹果、Adobe、LinkedIn、Expedia、Stripe 等公司采用。

“从根本上构建一个独立、云原生并且可以积极管理数据的平台，是我和其他联合创始人创建 Tabular 的初衷。”现任 Tabular 首席执行官的 Ryan Blue 表示。Ryan Blue 在其文章中指出当前数据基础设施主要存在两大缺点：

首先，数据湖充满陷阱和挫折，这让人们不得不成为解决各种古怪限制的专家，而不能专注在把事情做好上。删除一列数据可能会悄悄破坏查询结果，不知道应该向查询添加冗余过滤器可能会浪费分析师数天的时间，更不用说还增加了云成本。

其次，大数据生态系统一直在把问题推给错误的人。使用这些技术的人应该专注于构建相关和可靠的数据产品，但他们不得不浪费时间担心 SQL 会生成多少文件。数据基础设施应该做得更多，而不是要靠人来弥补它的许多差距。

Apache Iceberg 认为，节省时间和消除令人头痛的问题是数据基础设施的关键下一步。Blue 表示，Iceberg 哲学的核心是让人们开心：数据基础设施应该在没有令人不快的意外情况下正常工作。

Blue 表示，Tabular 将消除数据维护和优化难题。开发者可以使用 Iceberg 安全地自主构建管理表。数据平台可以提供更多的功能，包括压缩、集群、配置、索引等。

此前在 Netflix，Iceberg 使得从 Kafka 流入的数据在几分钟内便可以使用，而非原来的数小时。在此过程中，Netflix 将 Iceberg 开源出来并捐赠给了Apache 软件基金会。Tabular 承诺永远不会控制或伤害 Iceberg，并将为开源社区作出贡献。“Iceberg 的持续成功取决于建立了一个通用和开放标准的多元化社区。”Blue 表示。

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中 Iceberg 以自身独特的优势被越来越多开发者关注。

首先，Iceberg 的架构和实现没有绑定到某一特定引擎，实现了通用的数据组织格式，利用此格式可以与不同引擎（如 Flink、Hive、Spark）对接。其次，Iceberg 还有良好的架构和开放格式。相比于 Hudi、Delta Lake，Iceberg 的架构实现更为优雅，同时对于数据格式、类型系统有完备的定义和可进化的设计。此外，Iceberg 在数据组织方式上充分考虑了对象存储的特性，避免耗时的 listing 和 rename 操作，使其在基于对象存储的数据湖架构适配上更有优势。

创作场景

开源数据湖方案 Apache Iceberg 成立公司，CEO：我们将消除数据维护和优化难题