写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:005853
用户头像

发布了 312 篇内容, 共 206.2 次阅读, 收获喜欢 599 次。

关注

评论

发布
暂无评论
发现更多内容

毕业总结

miliving

AI语音处理-文字合成语音功能

DS小龙哥

3月月更

浏览器工作原理和V8引擎

CRMEB

RocketMQ系列文章---RocketMQ整体架构

NoLongerConfused

RocketMQ

小白入门HarmonyOS Connect设备开发的“芯”路历程

HarmonyOS开发者

芯片 HarmonyOS 设备

N个技巧,编写更高效 Dockerfile|云效工程师指北

阿里云云效

阿里云 云原生 Dockerfile 部署与维护 构建工具

毕业设计

whoami

教你如何解决JS/TS里特定String进行拆分然后遍历各个元素

华为云开发者联盟

JavaScript string 遍历 字符串 元素

web前端培训:react高频面试题分享

@零度

前端开发 React

Go语言实战之映射的内部实现和基础功能

山河已无恙

golng 3月月更

人工智能开源录 | 对话OpenI启智社区:智能无处不在,AI开源创新的发展与探索

OpenI启智社区

软件工程 大模型 东数西算 人工智能开源

昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

Geek_32c4d0

mindspore 昇思 全场景AI框架

三级等保是最高的吗?有什么用?

行云管家

网络安全 等保 等保2.0

[ CKS 备考指南 -01 ] 总览(送免费 15% 折扣券)

baiyutang

Kubernetes 运维 k8s 开源文化 CKS

网络协议之:socket协议详解之Socket和Stream Socket

程序那些事

网络协议 程序那些事 3月月更 MIME

基于CREATE TYPE语法自定义新数据类型

华为云开发者联盟

数据库 数据类型 CREATE TYPE 复合类型

Java基础系列文章---异常

NoLongerConfused

3月月更

数据预处理和特征选择

云智慧AIOps社区

数据挖掘 机器学习 算法 特征选择 数据预处理

用测试来学习 Go

baiyutang

golang

程序员最讨厌的四件事,它能解决!

博文视点Broadview

Java面向对象知识点拆分(一)

逆锋起笔

面向对象 java基础 3月月更 Java面向对象

虎符交易所HOO持续创造今年新高,你的HOO囤够了吗?

区块链前沿News

加密资产 Hoo 虎符交易所 平台币

来,2W字+23张图+5W1H分析法帮你彻底拿下缓存

小梁编程汇

缓存 缓存穿透 缓存击穿 缓存并发 缓存服务

HertzBeat赫兹节拍 v1.0.beta.5 发布,易用友好的监控告警系统

TanCloud探云

Java angular 告警 应用监控 开源监控系统

轻松应对1亿+月活,《迷你世界》背后有啥黑科技

华为云开发者联盟

分布式数据库 中间件 RDS 迷你世界

推荐 5 个 yyds 的开源 Python Web 框架

AlwaysBeta

Python django flask tornado Web

全链路压测(六):确认范围和识别风险

老张

性能测试 全链路压测 稳定性保障

如何保持系统的整洁

蜜糖的代码注释

设计原则 项目开发 3月月更

MySQL系列文章---初识MySQL中的锁

NoLongerConfused

3月月更

Redis二三事之事前预防和事中恢复

NoLongerConfused

3月月更

【ELT.ZIP】OpenHarmony啃论文俱乐部——多维探秘通用无损压缩

ELT.ZIP

OpenHarmony 压缩算法

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章