随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,便成了企业构建大数据生态的一个重要方向。如何能快速、一致、原子性地在数据湖存储上构建起 Data Pipeline 是一个亟待解决的问题。
为此 Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。相比于 Hudi、Delta Lake,Iceberg 正式提出了表格式这样一个概念,利用表格式来有效地组织数据、提供 ACID 能力、优化对象存储,使之成为数据湖上一个不可缺少的一环。
会议演讲推荐
更多内容推荐
第一章作业
1.找到⾃⼰⼼仪的岗位 / 公司,横向对⽐不同公司 / 产品岗位的差异,写⼀份备忘录,最好有结论,请注意排版和⽂件格式,建议图⽂并茂
2021 年 1 月 18 日
Spring Boot 返回 Json 数据及数据封装
在项目开发中,接口与接口之间,前后端之间数据的传输都使用 Json 格式,在 Spring Boot 中,接口返回 Json 格式的数据很简单,在 Controller 中使用@RestController注解即可返回 Json 格式的数据,@RestController也是 Spring Boot 新增的一个注解,我们点进
2021 年 1 月 10 日
基于 Flink SQL 构建流批一体的 ETL 数据集成
本文整理自云邪、雪尽在 Flink Forward Asia 2020 的分享,该分享以 4 个章节来详细介绍如何利用 Flink SQL 构建流批一体的 ETL 数据集成,。
2021 年 2 月 26 日
开发实战:LocalDateTime 转 RFC3339 格式
订单失效时间,遵循rfc3339标准格式,格式为YYYY-MM-DDTHH:mm:ss+TIMEZONE,YYYY-MM-DD表示年月日,T出现在字符串中,表示time元素的开头,HH:mm:ss表示时分秒,TIMEZONE表示时区(+08:00表示东八区时间,领先UTC 8小时,即北京时间)。
2021 年 1 月 19 日
快来看,大数据两地三中心的容灾也可以如此省心!
摘要:随着数据湖技术从离线向实时的发展,数据湖在业务已逐渐从辅助决策向实时决策,实时干预甚至提前预防的方向发展,同时,随着国家把数据作为第五种生产要素,数据据价值在逐步提升,这样对海量数据湖的可靠性提出了新的要求。
2021 年 8 月 6 日
高性能消息数据存储引擎的设计解析
2018 年 12 月 18 日
转转数据中台技术架构方法论与实践
2020 年 1 月 3 日
Flink 核心特性
2020 年 8 月 26 日
批处理 ETL 已经消亡,Apache Kafka 才是数据处理的未来吗?
在QCon旧金山2016会议上,Neha Narkhed做了“ETL已死,而实时流长存”的演讲,并讨论了企业级数据处理领域所面临的挑战。该演讲的核心前提是开源的Apache Kafka流处理平台能够提供灵活且统一的框架,支持数据转换和处理的现代需求。
51|Flink Table API/SQL 介绍与使用
2020 年 10 月 29 日
MongoDB 数据中台案例
2020 年 2 月 21 日
构建切实有效的湖仓一体架构
湖仓一体架构力图结合数据仓库的弹性和数据湖的灵活性。本文介绍了由数据抽取、处理、编目和分析服务组成的概念架构,并给出了构建切实有效湖仓一体架构的五个基本原则。
Databricks 开源存储层 Delta Lake,欲取代传统数据湖
近日,Databricks官方博客宣布开源Delta Lake项目。Delta Lake是一个存储层,为Apache Spark和其他大数据引擎提供可伸缩的ACID事务,让用户可以基于HDFS和云存储构建可靠的数据湖。此外,Delta Lake还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。
什么是大数据:从 GFS 到 Dataflow,12 年大数据生态演化图
要想学好大数据,我们需要先正本清源,弄清楚大数据在技术上到底涵盖了些什么。所以今天这节课,我就从大数据技术的核心理念和历史脉络这两个角度,来带你理解下什么是大数据技术。
2021 年 9 月 15 日
大数据架构变革进行时:为什么腾讯看好 Apache Iceberg?
在基础软件开源化的趋势下,国内企业在数据湖技术点上的探索与跟进并不比国外企业落后太多
实时数仓在滴滴的实践和落地
滴滴技术 出品
2020 年 9 月 3 日
送你两个神器,关系数据库数据入湖轻松应对
摘要:关系数据库的数据入湖,有多种场景、多种工具、多种入湖时效要求等,本文梳理相关场景,以及对应的建议方案。
2021 年 8 月 12 日
推荐阅读
智慧城市现状调研
2021 年 4 月 15 日
数据库查询串讲:重难点回顾 + 思考题答疑 + 知识全景图
2020 年 9 月 30 日
美菜网交易中台建设
2020 年 1 月 3 日
Pulsar 如何为批和流处理提供高效统一的数据存储
.NET Core Tools 转向使用 MSBuild 项目格式
数据扩充的基本方法:如何从少部分数据中扩充更多的数据并避免过拟合?
2020 年 5 月 21 日
AWS 数据湖十年,云计算老大哥的磨刀之路
电子书
大厂实战PPT下载
换一换 孙杰 | 某能源科技公司 数字化能力中心技术总监
李明冬 | 携程 框架架构研发部技术专家
张俊钦 | 爱奇艺 研究员
评论