专访李潇：数据智能平台，AI时代的Lakehouse架构

在过去十年里，随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷，整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商，Databricks 一直扮演着引领者的角色。

在今年生成式 AI 的潮流中，Databricks 不仅率先发布了开源可商用的大模型 Dolly，还于 6 月底宣布以 13 亿美元的价格，收购生成式 AI 公司 MosaicML。Databricks 在 GenAI 上的投入也反映了整个大数据行业的技术演进。在 2023 年终盘点之际，InfoQ 有幸采访了 Databricks 工程总监、Apache Spark Committer 和 PMC 成员李潇，了解他对大数据技术栈的看法，以及 Databricks 在数据智能平台上的进展和规划。

完整年终盘点文章：挑战 Spark 和 Flink？大数据技术栈的突围和战争｜年度技术盘点与展望

InfoQ：今年，关于大数据基础设施的演进，您观察到有哪些重要更新或变化？

李潇：大数据领域随着生成式 AI 的兴起也变得异常热闹，我这里简略提及四点。

Lakehouse 平台的增长：Lakehouse 平台在数据仓储领域的使用正迅速增加。这反映了一个重要的趋势：组织正从传统的数据处理平台过渡到更加灵活、集成和效率更高的现代数据架构。据 2023 年 MIT Technology Review Insights 报告，全球 74%的首席信息官（CIOs）表示他们已经在使用 Lakehouse 架构。自 Databricks 在 2020 年推出此概念以来，Lakehouse 作为一个新类别得到了广泛的采纳。几乎所有还未使用 Lakehouse 的首席信息官都计划在未来三年内部署此类平台。

Serverless 技术的普及：在过去两年里，Serverless 技术在各个数据及人工智能（Data+AI）产品线中的应用变得极为普遍。Serverless 架构的核心优势在于其能够提供无需管理底层服务器的数据处理和计算能力，从而使组织能够专注于核心业务逻辑而无需考虑基础设施的成本和维护。比如，Databricks SQL（Lakehouse 上的无服务器数据仓库）使用量获得了大幅增长。这种架构模式特别适合于快速开发和部署，因为它能够根据需求自动扩展资源，并且只在实际使用时产生费用。在 Data+AI 领域，Serverless 技术的引入使得数据处理、机器学习模型的训练和部署变得更加高效、灵活且成本有效。

机器学习和大型语言模型（LLM）应用的扩展：机器学习和大型语言模型，特别是自然语言处理（NLP），正在经历迅速的应用扩展。这些技术不仅加强了传统分析任务的能力，还催生了新的应用场景，如聊天机器人、研究助手、欺诈检测和内容生成等。例如，Databricks 的 Data Intelligence Platform 融合了生成式 AI 和 Lakehouse 架构的优势，创造了一个能够理解数据独特语义的数据智能引擎。这一平台针对特定业务需求，自动优化性能和管理基础设施，极大地简化了用户通过自然语言查询和发现新数据的体验。这反映出组织不仅在将更多的模型投入生产，也在加大对机器学习实验的投入，显示出机器学习方法和工具使用的成熟度和有效性正在不断提升。

开源技术在数据和 AI 市场的关键作用及数据所有权的重要性：在人工智能和机器学习产品开发中，开源技术扮演着核心角色。我们需要一个更加安全、透明和可持续的数据和 AI 市场。开源平台和工具使用户能够更好地掌控他们的数据和技术堆栈，从而确保数据隐私和安全性，这在当前的 AI 和 ML 策略中至关重要。Databricks 是开源社区的坚信者，对开源社区的持续贡献和对数据所有权重要性的强调，展现了我们对于建立一个开放、负责任且创新的技术生态系统的承诺。

InfoQ：2020年的年终盘点（https://www.infoq.cn/article/k6Y0wXB7UGIOu2ak85WV），您预测趋势之一：“数据流水线（Data Pipeline）从复杂到简单”，如今对这个当初的预测您有新的感想吗？

李潇：在 2022 年，我们发布了全新的 Delta Live Table (DLT)，这个正好对应了在 2020 年“数据流水线（Data Pipeline）从复杂到简单”的预测。这是第一个通过声明式方法来构建数据流水线的。它显著降低了数据管道的复杂性，同时提高了效率和可靠性，这使得数据流水线更易于构建、维护和操作。这对于希望快速、高效地处理大量数据的企业来说是一个巨大的进步。我们这里介绍一下它为了简易好用所引入的六个特性吧。

1) 声明式编程模型： DLT 采用声明式编程模型，使得定义和维护数据管道更为直观和简单。用户只需要指定所需的最终数据状态，DLT 则负责执行必要的步骤来实现这一状态。

2) 自动化数据工程任务： DLT 自动化了许多传统上需要手动编码的数据工程任务，如数据清洗、转换和聚合。通过减少需要手动编写和调试的代码量，DLT 简化了整个数据处理流程。

3) 错误处理和数据质量保证： DLT 内置了错误处理和数据质量检查机制。这意味着数据工程师可以花费更少的时间在解决数据质量问题上，而更多地专注于数据分析和提取洞察。

4) 优化的资源管理和成本效率： DLT 通过自动调整资源使用（例如，在处理大量数据时自动扩展计算资源），提高了资源管理的效率，降低了操作成本。

5) 改进的监控和维护： DLT 提供了增强的监控和维护功能，使得跟踪数据管道的性能和识别潜在问题变得更加容易。

6) 无缝集成和扩展性： DLT 可以无缝集成到现有的数据生态系统中，并且具有很好的扩展性，支持从小型项目到大规模企业级应用的不同需求。

InfoQ：以 Databricks 的发展为例，回头去看大数据技术的发展，您认为主要可以分为哪几个阶段？

李潇：大数据技术的发展，以 Databricks 的成长历程为例，可以分为几个关键阶段，这些阶段不仅展现了 Databricks 的发展轨迹，也反映了整个大数据行业的技术演进。

首先是 Apache Spark 的诞生阶段。这个阶段始于 2010 年，标志着 Hadoop 技术时代的结束。Apache Spark 由 Databricks 的创始人之一 Matei Zaharia 等人开发，这是一个开源的分布式计算系统。它的出现大幅降低了大数据处理的门槛，使得大数据开始与机器学习和人工智能结合，成为统一的分析引擎。它使得用户可以更简单、方便地进行全量数据分析、实时流处理和复杂的数据分析。从此，大数据不再仅限于技术巨头，而是开始被更广泛的行业和企业采用。

接下来是 Lakehouse 架构的推出阶段。这一阶段发生在 2020 年，打破了传统数据湖和数据仓库的界限。Lakehouse 架构结合了数据湖和数据仓库的最佳元素，旨在降低成本并加速数据及人工智能项目的实施。Lakehouse 架构建立在开源和开放标准之上，它通过消除历史上复杂化数据和 AI 的孤岛，简化了数据架构。值得注意的是，Apache Spark 只是 Lakehouse 架构中的可选模块之一。

最后是生成式 AI 大潮下的 Lakehouse 阶段。在这个阶段，Lakehouse 成为了下一代数据智能平台 (Data Intelligence Platform) 的基础。这个数据智能平台将 AI 带入数据处理，帮助全世界的用户发现数据的价值。在这个平台上，用户可以开发基于自己数据的生成式 AI 应用，同时不必牺牲数据隐私或控制权。它使得组织中的每个人都能使用自然语言来从数据中发现洞见。

总的来说，这些阶段并不是严格分隔的，而是相互交织和演进的。每个阶段都反映了当时技术发展的需求和挑战，同时预示着下一阶段的到来。未来，数据和 AI 不分家！

InfoQ：Databricks 今年最大的进展主要体现在哪个方面？是 AI 方向上的吗？

李潇：今年，Databricks 的最大进展主要体现在将人工智能集成到数据平台中。公司构建了一个基于数据湖仓（Lakehouse）的数据智能平台（Data Intelligence Platform），专注于 AI 在数据处理中的变革作用。这个平台利用生成式 AI 模型来理解数据的语义，并在整个平台中应用这种理解。用户可以在保持隐私和控制的同时，从头开始构建模型或调整现有模型。该平台的目标是实现数据和 AI 的平民化，使用自然语言极大简化了数据和 AI 的端到端体验。通过在数据和 AI 的每一层应用 AI，可以实现针对特定业务的全面自动化和成本效率。这种平台的统一性有助于用户以数据为中心的方式应对任何模型开发场景，使用私有数据，从而拥有更强的竞争和经济优势。

数据湖仓对 GenAI 起到了什么样的帮助或作用？（湖仓应该只是 pipeline 的一环，但是跟 GenAI 有直接联系么？企业如何利用湖仓架构支持他们的 AI 战略，从技术上说他们需要做些什么？）

数据湖仓（Lakehouse）为 GenAI 提供了一个集中、高效和可扩展的数据存储和管理环境。它结合了数据湖的灵活性和数据仓库的高性能，支持结构化和非结构化数据的存储和处理，这是 AI 应用的数据需求的基石。

数据质量和治理：数据湖仓通过提供强大的数据治理工具（如 Databricks 的 Unity Catalog）来确保数据的质量和安全。这对于构建准确可靠的 AI 模型至关重要。Unity Catalog 帮助企业精确管理其数据，提供完整的元数据和数据溯源信息，从而提高 AI 模型的准确度，并确保数据的安全性。

数据访问和处理：数据湖仓支持高效的数据访问和处理，这对于实时 AI 应用和深度学习模型训练尤为重要。在 Databricks 的 Lakehouse，通过 Unity Catalog，智能引擎可以理解数据和数据之间的关系，企业可以使用自然语言来安全地查找和理解数据，这对于在庞大的数据集中找到正确的数据至关重要。

数据集成和管理：数据湖仓提供了一个统一的平台，支持大量结构化和非结构化数据的存储和管理。这对于训练和优化 AI 模型至关重要。其实除了数据迁移到 Lakehouse，今年，我们还推出了 Lakehouse Federation 的功能，用户可以跨多个数据平台（如 MySQL、PostgreSQL、Snowflake 等）发现、查询和管理数据，无需移动或复制数据，为用户提供了简化和统一的体验。

当前，越来越多的公司正在构建自己的 Lakehouse 架构。然而，根据不同需求的技术选型会带来截然不同的效果。对于企业级用户而言，数据安全通常是最优先考虑的问题。在我看来，选择技术平台时，首先应确保平台能够解决数据合规和数据资产安全性问题，其次才是成本控制和性能提升。

目前，众多公司正积极构建自己的 Lakehouse 架构。重要的是，技术选择应根据具体需求定制，因为不同的选择将导致不同的成果。对于企业级用户，数据安全无疑是首要关注的领域。在选择技术平台时，首先要确保所选平台能够全面应对数据合规性和数据资产安全性的挑战。此外，成本控制和性能优化也是重要的考量因素，但它们应该在确保数据安全的基础上进行权衡。因此，平衡这些关键要素，选择一个既安全又高效的 Lakehouse 解决方案，对于任何希望在现代数据生态中取得成功的企业来说，都是至关重要的。

InfoQ：请展望未来的大数据架构是什么样子（必要组件的演变，一些趋势总结）？

李潇：在不久的未来，每个领域的赢家都是那些可以最有效利用数据和 AI 的。事实上，我们坚信对数据和 AI 的深刻理解是每个赢家的必备技能。未来的大数据架构将是一个高度集成、智能化和自动化的系统，它能够有效地处理和分析大量数据，同时简化数据管理和 AI 应用的开发过程，为企业提供竞争优势。

未来的大数据架构，我们可以称为“数据智能平台（Data Intelligence Platform）”。它正是顺应了两个主要趋势：数据湖仓（Data Lakehouse）和生成式人工智能（AI）。这一架构建立在数据湖仓的基础上，它提供一个开放、统一的基础，用于所有数据和治理，由一个理解用户数据独特语义的数据智能引擎(Data Intelligence Engine) 驱动。这是相对现有 Lakehouse 架构下的，最大的突破。

智能化方面，这个引擎能理解客户数据的独特语义，使平台能自动优化性能和管理基础设施。操作简化方面，自然语言大大简化了用户体验。数据智能引擎理解客户的语言，使搜索和发现新数据就像询问同事一样简单。此外，自然语言还助力编写代码、纠错和寻找答案，加速新数据和应用程序的开发。

在隐私保护方面，数据和 AI 应用需要强大的治理和安全措施，尤其是在生成式 AI 的背景下。提供一个端到端的机器学习运维（MLOps）和 AI 开发解决方案，该方案基于统一的治理和安全方法。这允许在不妥协数据隐私和知识产权控制的情况下，实现所有人工智能目标。

总的来说，未来的大数据架构将更加重视智能化、操作简化和数据隐私，为企业在数据和 AI 应用方面提供竞争优势。这将使企业能更有效地利用数据，推动创新，同时保护数据安全和发展 AI 技术。

更多阅读：

解读数据架构的 2020：开放、融合、简化：https://www.infoq.cn/article/k6Y0wXB7UGIOu2ak85WV

让大模型融入工作的每个环节，数据巨头 Databricks 让生成式 AI 平民化：https://www.infoq.cn/article/EvYEXsLPh8KMkfNrsG7D

创作场景

专访李潇：数据智能平台，AI 时代的 Lakehouse 架构