写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:005884
用户头像

发布了 329 篇内容, 共 229.5 次阅读, 收获喜欢 621 次。

关注

评论

发布
暂无评论
发现更多内容

每个程序员都应该知道的 8 大算法

不在线第一只蜗牛

c++ Python 算法

理解 Node.js 中的事件循环

高端章鱼哥

node.js

软件测试开发/全日制丨测试方案设计 学习笔记

测试人

软件测试 自动化测试 测试开发

OP链、ARB链、TRX波场链丨BNB币安链质押挖矿系统开发丨源码搭建

l8l259l3365

腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎

腾讯云大数据

ES

Apache Paimon:Streaming Lakehouse is Coming

Apache Flink

大数据 flink 实时计算

如何处理预防XSS漏洞攻击问题

德迅云安全杨德俊

CDN xss攻击 网站安全

奋发向前展华章 秋光熠熠映朝阳 ——华秋2023年度关键词“发展”

华秋电子

软件测试开发/全日制丨redis击穿、穿透区别,如何设计用例及测试

测试人

redis 软件测试 测试开发

PCB阻抗设计12问,轻松带你搞懂阻抗!

华秋电子

垂直领域大模型——文档图像大模型的思考与探索

陈橘又青

人工智能 文档识别 智能文字识别技术

如何快速搭建AI数字人系统源码?

伤感汤姆布利柏

Web3 生态系统中的稳定币发展:2024 年基本见解

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

程序员必备的数据库知识 2:Join 算法

快乐非自愿限量之名

澜起科技推出支持7200 MT/s速率的DDR5第四子代RCD芯片

财见

HTTP 和 HTTPS 的比较

Liam

程序员 前端 https 后端 HTTP

工作会议:更适合中国宝宝体制的party

伤感汤姆布利柏

FDA 9月27号最新发布!SBOM将作为医疗设备上市的重要参考材料!

安势信息

SBOM 医疗器械 医疗器械软件 FDA认证

亚太唯一,阿里云连续4年稳居Gartner全球云数据库报告「领导者」

阿里云瑶池数据库

数据库 阿里云 云原生 Gartner

软件测试开发/全日制丨Python 常用第三方库 yaml 学习笔记

测试人

Python 软件测试 yaml 测试开发

XSKY SDS 产品率先获得 OceanBase V4 新版本认证

XSKY星辰天合

「2023中国ToB行业年度榜单」重磅启动!

ToB行业头条

码上加速,低代码解锁高效交付案例

京东科技开发者

Kafka Streams概述

FunTester

SMART Utility for mac (硬盘检测工具) 3.2.7完美激活版

mac

苹果mac Windows软件 SMART Utility 磁盘诊断工具

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章