QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:005877
用户头像

发布了 325 篇内容, 共 222.1 次阅读, 收获喜欢 616 次。

关注

评论

发布
暂无评论
发现更多内容

AD域是什么意思?有什么用?

行云管家

服务器 内网 AD域

牛皮了!阿里大佬总结的图解Java手册在GitHub火了,完整版开源中

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

用遗传算法进行智能排课,相信老师会很喜欢

华为云开发者联盟

AI 编码 遗传算法 算子 课程编排

DataPipeline助力国际知名物流服务商,打造供应链改革新样本!

DataPipeline数见科技

发布半小时登上GitHub首页的Spring Boot实战笔记,竟是京东T8编写

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Vite + Vue3 + OpenLayers 弹窗

德育处主任

大前端 地图 vite Vue3 openlayers

阿里大牛肝出的443页TCP/IP协议趣谈笔记,竟然在GitHub标星27k+

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Alibaba内部最新Java架构核心宝典 (全彩版小册开源)

Java 程序员 架构 面试 计算机

金九银十涨薪50%,从默默无闻,到坐上美团L8技术专家(面经+心得)

Java 编程 程序员 架构 面试

对象存储手把手教五 | 数据存取与加密

QingStor分布式存储

对象存储 分布式存储 数据加密

小红书严惩刷量行为:如何才能优雅的种草

石头IT视角

程序员35岁后的发展,欢迎一起来讨论

hanaper

浅谈百度阅读/文库NA端排版技术

百度Geek说

大前端 百度文库

Python中使用定时调度任务(Schedule Jobs)的5种方式

Regan Yue

Python 调度 9月日更

Python基础综合练习1

在即

9月日更

web技术分享| 前端秘籍之“易容”术

anyRTC开发者

人工智能 大前端 音视频 web技术分享

阿里内部进阶资料:24w字的Java面试宝典,竟然在GitHub霸榜月余

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

你的工作谁做主?

产品运营心经

工作效率 职场成长

意外发现GitHub 星标35k+ 435页网络协议深度笔记,出自华为架构师

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

一萌妹子的面试经历,美团四面三小时,成功拿到Java岗offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

华为大神用前半生经验所写的SpringBoot全优笔记,现无偿与大家分享!

Java 华为 程序员 面试 计算机

恒源云(GpuShare)_GPU租用保姆级教程,助力深度学习训练!

恒源云

KubeVirt with YRCloudFile 擦出创新的火花

焱融科技

云原生 文件存储 虚拟化 高性能, 分布式存储,

SQL注入详解

行者AI

测试

双赞的一体机主板能应用到哪些行业?

双赞工控

全链路压测流量模型

FunTester

性能测试 全链路压测 FunTester 灰度分流 流量回放

什么是运维?怎样快速做好运维工作?

行云管家

云计算 运维 服务器 云运维

vue3,对比 vue2 有什么优点?

华为云开发者联盟

Vue Vue3 vue2 diff算法 渲染API

ResNet-50 在 ImageNet-1k 上的实验笔记

毛显新

人工智能 神经网络 深度学习 卷积神经网络 PyTorch

小白都能看懂的JVM知识,一文带你学会JVM内存模型!

华为云开发者联盟

Java JVM 内存管理 Java虚拟机 JVM内存模型

模块3作业

Ping

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章