QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:005919
用户头像

发布了 338 篇内容, 共 239.2 次阅读, 收获喜欢 626 次。

关注

评论

发布
暂无评论
发现更多内容

书单 | 振聋发聩,撼世经典!总有那么一些书经得住时间的考验

博文视点Broadview

白话机器学习(8):世界上本没有随机森林,决策树多了,也就变成了森林

杜吉普

机器学习

SpringBoot 数据库操作(集成MyBatis)

xcbeyond

mybatis SpringCloud 8月日更

毕业设计:设计电商秒杀系统

贯通

#架构实战营

oeasy教您玩转vim - 12 - # 词头词尾

o

【Flutter 专题】71 图解基本隐式动画 Widget

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

【Vue2.x 源码学习】第三十一篇 - diff算法-比对优化(下)

Brave

源码 vue2 8月日更

数据缓存历险记(四)--LRU大师兄的Java实现

卢卡多多

redis LRU 8月日更

前端之数据结构(六)图

Augus

数据结构 8月日更

RocketMQ之Store模块

邱学喆

commitlog consumequeue index ha flush

手撸二叉树之最小深度

HelloWorld杰少

数据结构与算法 8月日更

白话机器学习(2):产品经理都在用的线性回归模型

杜吉普

机器学习 线性回归

白话机器学习(5):更高端的线性回归模型-Ridge Regression

杜吉普

机器学习

白话机器学习(6):用Lasso Regression踢出浑水摸鱼的变量

杜吉普

机器学习

Android开发:获取手机当前连接的WiFi名称

三掌柜

8月日更 8月

白话机器学习(9):用户精细化管理背后的秘密:K-means聚类模型

杜吉普

机器学习

Spring梳理

十二万伏特皮卡丘

架构实战营 - 毕业总结

༺NPE༻

Python代码阅读(第8篇):列表元素逻辑判断

Felix

Python 编程 Code Programing 阅读代码

白话机器学习(4):模型的裁判-交叉验证Cross-Validation

杜吉普

机器学习 杜吉普

如何加强自己对Java的编码规范

Bob

Java 8月日更

杜吉普:指标体系多重奏——指标体系建立思路

杜吉普

数据分析 指标体系 数据运营

[架构实战营一期] 模块四作业

trymorewang

架构实战营

《社会心理学》--从众和服从

箭上有毒

8月日更

数据产品经理是做什么的?

蒋川

docker入门:单机elasticsearch安装记录,保证无坑

小鲍侃java

8月日更

白话机器学习(7):人类最好理解的预测模型-决策树Decision Tree

杜吉普

synchronized优化手段:锁膨胀、锁消除、锁粗化和自适应自旋锁...

王磊

Java 并发 synchronized 8月日更

白话机器学习(3):理解机器学习中的Bias与Variance

杜吉普

机器学习

杜吉普:数字化运营广告营销之道

杜吉普

机器学习 互联网广告 营销数字化

Druid 加载 Kafka 流数据 Supervisor 配置

HoneyMoose

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章