写点什么

数据湖和 SQL 并不矛盾

  • 2020-01-08
  • 本文字数:1766 字

    阅读完需:约 6 分钟

数据湖和SQL并不矛盾

数据量的增加推动了技术的更新和范式的变化。与此同时,SQL 仍然是主流。随着数据的增长和复杂性的增加,SQL 比以往任何时候都更适合分析和转换数据湖中的数据。本文探讨了如何将 SQL 用于数据湖和新的数据生态系统。本文要点:随着数据的增长和复杂性的增加,SQL 比以往任何时候都更适合分析和转换数据湖中的数据。


本文最初发布于 TowardsDataScience,经原作者授权由 InfoQ 中文站翻译并分享。

记得 NoSQL 吗?

NoSQL 数据库的出现带来了巨大的可伸缩性和简单性。


如果我们必须高速处理大量的数据,我们会被告知 NoSQL 是唯一的出路。供应商一直在喋喋不休地讨论 SQL 和中间件代码之间的阻抗失配问题。


现在我们发现,大多数 NoSQL 供应商在花了几年时间来贬低连接之后,都引入了 SQL 层。一些供应商还引入了 SQL 方言,使情况变得更糟。


在 NoSQL 上引入这个 SQL 层似乎是出于对新一代数据库的恐惧,比如谷歌 Spanner,以及提供 JSON、XML 作为一等数据类型的数据库供应商。

Hadoop 呢?

Hadoop 为开发人员提供了 map-reduce 接口,这带来了一些巨大的进步,但同时也带来了很多问题(见 DeWitt 和 Stonebraker 的文章MapReduce:一次大倒退)。


在 Hadoop 上使用 map-reduce 处理数据还有很多需要改进的地方。性能调优、数据倾斜处理、获得最佳吞吐量,所有这些都需要太多的裸机代码更改。


人们尝试了多种受 SQL 启发的方法:


  • Apache Pig:类 SQL 语法、FOREACH 代替 FROM、GENERATE 代替 SELECT;

  • Hive: 用于 SQL-in-Hadoop 的类 MySQL 语法、将 SQL 转换为 map-reduce;

  • Drill、Impala、Presto 和 Pivotal 的 HAWQ:SQL-on-Hadoop,绕过 map-reduce;

  • Spark SQL:SQL on Spark;

  • Apache Phoenix:SQL on HBase;

  • Hadoop 作为已有 DB 的外部表:Oracle Big Data SQL、Teradata SQL-H。


经过多年的“大数据时代”,以及一些 Hadoop 的兼并和破产,我们现在看到了这些技术的幸存者。Hadoop 技术现在更多地存在云中,而不是在本地环境中。现在,在组织中已经不经常看到完整的 Cloudera 或 HortonWorks 栈了。相反,少数几种技术蓬勃发展,现在已广泛用于云数据栈。

数据湖上的 SQL

Stonebraker 很久以前就指出,数据库的性能问题和可伸缩性与 SQL 关系不大,而更多地与数据库本身的设计有关(NoSQL的讨论与SQL无关)。


SQL 的最大优点是它提供了熟悉性和分析数据的表达能力。SQL 的健壮性以关系代数和集合理论为基础。


对于数据湖,我们可以看到以下这些技术。


  • Hive 元数据存储是人们喜爱的数据目录。

  • 在 SQL 层,Presto 作为一个查询层脱颖而出,并在 Amazon Athena、Google Cloud DataProc、Qubole 中得到了广泛应用。

  • Spark 和 Spark SQL 的应用也很广泛。

  • Hadoop 文件系统(HDFS)用的不那么多了,云存储(Azure Blob、谷歌云存储、AWS S3)更受欢迎,CSV、Avro 和 Parquet 文件格式也更受欢迎了。

云数据仓库和数据湖

在原始文件系统上存储的经济性推动了数据湖的创建。SQL 被用于分析数据。


Amazon RedShift Spectrum 可以查询 S3 数据。


Snowflake DB 可以使用 VARIANT 列在数据库中存储 XML、JSON 或 ORC 数据,还可以使用外部表指向 S3 中的数据。


外部表还支持谷歌 BigQuery 和 Azure SQL 数据仓库。

SQL 和 ELT (提取 加载 转换)

数据处理的 ELT(提取 加载 转换)范式将数据转换步骤放在最后。首先从源系统提取数据并将其加载到数据库中。


旧的 ETL 方法 RBAR(逐行处理)与关系数据库执行的基于集合的处理形成了直接的对比,而基于集合的处理构成了 SQL 的基础。


ELT 中,我们现在从源数据库中提取数据并将其放入数据湖中。


SQL 转换在云数据仓库或使用 Presto 完成,并将转换后的数据加载到目标表。


通过 GoldenGate、AWS DMS,或者使用 Workato/Jitterbit/StitchData 等工具或 Kafka 等健壮的事件管道,一点点地向数据湖或数据仓库输送数据。将源系统和加载区域之间的转换最小化。然后使用 SQL 将这些数据转换并加载到仓库和分析层。


ELT 工具链使用 DAG(有向无环图)工具,如 Apache AirFlow 和无服务器函数,而不是旧的 ETL 工具链中类似 AutoSys 这样的调度器。


DBT 是在转换领域流行的另一个工具。像 FiveTran 和 Matillion 这样的云数据处理工具也使用 SQL 和 ELT。Domo 序列化 SQL 来创建转换管道。Looker 基于 LookML 生成 SQL。


原文链接


https://towardsdatascience.com/data-lakes-and-sql-49084512dd70


2020-01-08 08:002595
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 609.6 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

不同数据场景下的聚类算法

量贩潮汐·WholesaleTide

机器学习 算法

快收藏!一个技巧从此不再搞混缓存穿透和缓存击穿

量贩潮汐·WholesaleTide

缓存

成就年薪百万程序员必修三门课:技术精进、架构修炼、管理探秘!

程序员高级码农

程序员 架构师

不会代码?1小时用AI克隆高颜值知识卡片网站!附保姆级部署教程

阿星AI工作室

AI 工具 AI教程 AI编程 AI工具推荐

普通提示词和工程提示词的区别

阿星AI工作室

AI 工程 rag 提示词 rag实战

Web前端入门:JavaScript 运算符 == 和 === 有什么区别?

电子尖叫食人鱼

JavaScript 前端

京东商品详情 API 接口全攻略:从入门到精通

tbapi

京东商品详情API接口 京东API 京东数据采集

云电脑显卡性能终极对决:ToDesk云电脑/顺网云/海马云,谁才是4K游戏之王?

小喵子

云电脑 ToDesk ToDesk云电脑 海马云 顺网云

attention计算过程的一些细节

AI布道Mr.Jin

一文彻底玩转Open Harmony三方库之从入门到实战,轻松拿捏lithe_refresh

程序员Feri

OpenHarmony HarmonyOS NEXT harmoyos

世界人工智能大会招募丨 WAIC 2025 FUTURE TECH 创新企业招募倒计时 15 天!让世界看见你的硬核 AI 创新

RTE开发者社区

人工智能三人行-热评:如何看待MCP领域的竞争?您看好哪家?

雅菲奥朗

联想重磅发布三大硬核数据网络新品,打造"一横五纵"战略智能底座

新消费日报

智启未来 | 拓维信息携旗下开鸿智谷受邀参加开源鸿蒙开发者大会2025

极客天地

《算法导论(第4版)》阅读笔记:p156-p161

codists

算法

人工智能三人行-热评:国内主流智能体开发平台一览

雅菲奥朗

自定义linux脚本用于快速jar包启动、停止、重启

刘大猫

jar Linux 脚本 启动 停止

前端使用正则表达式检查是否为十六进制字符串

刘大猫

Java 正则表达式 人工智能 数据分析 十六进制字符串

技术流必备!京东商品列表 API 接口深度解读

tbapi

京东API 京东商品列表接口

华南会议|AI驱动仿真未来 2025 Altair区域技术交流会华南站,报名开启!

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

人工智能三人行-热评:美国通过新法案,10年内禁止监管AI

雅菲奥朗

AI in Game,大模型能力与实时音视频技术融合,交出AI应用新答卷

腾讯云音视频

AI 实时音视频 GME

应该如何理解“数据驱动”?

优秀

数据挖掘 数字化转型 数据驱动

什么是信息化?什么是数字化?这两者有什么联系和区别?

优秀

数字化转型 数字化 信息化

AI赋能引爆短剧全球化风潮,腾讯云媒体处理助力短剧平台出海吸金

腾讯云音视频

出海

诚迈科技携HongZOS亮相开源鸿蒙开发者大会,加速生态繁荣与产业跃迁

极客天地

格灵深瞳发布视觉基础模型Glint-MVT,“分割一切”直接拿下SOTA

格灵深瞳

人工智能 视觉模型

人工智能三人行-热评:英伟达能守住中国市场的最后阵地吗?

雅菲奥朗

基于YOLOv8的7种交通场景识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

议程公布,火热预约!明晚19:00,人工智能通识教育先行探索教学研讨会

ModelWhale

MindIE PD分离部署Q&A

AI布道Mr.Jin

数据湖和SQL并不矛盾_AI&大模型_Shirish Joshi_InfoQ精选文章