过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。各大云厂商陆续提出自己的“湖仓一体”(Lakehouse)技术方案,如 AWS 的Redshift Spectrum、微软Azure Synapse Analytics 服务与 Azure Databricks 集成、阿里云MaxCompute+DataWorks、华为云FusionInsight等。还有一些公司正在通过开源表格式(如 Delta Lake、Apache Iceberg、Apache Hudi)构建自己的数据湖仓。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。
InfoQ希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现,并推动该技术方向的发展。
数据中台也要从离线为主走向实时化,湖仓一体是第一步。
存储正在经历新一轮架构革命:戴尔科技集团在数据湖的探索和思考
除了湖仓一体,我们还需要关注哪些数据架构演进方向?
本文将分享 Adobe 将超过 1PB 的数据集迁移到 Adobe 体验平台数据湖(Datalake)上的 Iceberg 的故事,具体介绍我们面临的挑战以及从中吸取的经验教训。
对话 OPPO 鲍永成:没有完备的数据体系,空谈湖仓之争没意义
本文将分享同程艺龙将 Flink 与 Iceberg 深度集成的落地经验和思考。
本文将分享网易严选的数据湖建设过程和思考。
本文介绍了 Adobe 公司在使用 Iceberg 时遇到的小文件问题以及高并发写入的一致性问题。针对这两个问题,Adobe 给出了有指导意义的解决方案。
本文主要介绍顺丰在数据仓库的数据实时化、数据库 CDC、Hudi on Flink 上的实践应用及产品化经验。
在基础软件开源化的趋势下,国内企业在数据湖技术点上的探索与跟进并不比国外企业落后太多
今天我们就来解构数据湖的核心需求,帮助用户更好地针对自身场景来做数据湖方案选型。