写点什么

一起建数据湖吗?

  • 2020-11-29
  • 本文字数:3191 字

    阅读完需:约 10 分钟

一起建数据湖吗?

在搞数字化转型?


别搞虚的,先整个“湖”吧


信息爆炸的时代,每个行业每天都在产生数以亿计的数据,海量数据的获取、整合及分析挖掘,展现出巨大的商业价值潜力。如何让数据产生价值?首先企业需要将各类业务系统产生的数据进行汇总,其次组合不同维度从中提取有价值的信息,然后再结合业务信息,选择合适的数据分析角度去辅助决策,产生业务价值,而业务价值带来的业务增长又会产生新的数据, 因此数据产生价值是一个不断转化的闭环过程。



实现数据价值闭环的第一步:给数据“安家”


要想实现数据价值闭环, 第一步需要给数据找个家--建立企业数据平台。


早在 1990 年 Bill Inmon 提出数据仓库(Data Warehouse)概念和建设方法论,目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 在数仓理论发展至今的 30 年间,越来越多企业会选用数据仓库架构作为数据平台建设的标准和核心, 分层构建多维数据模型和业务模型层。下游通过 ETL 工具对接各类数据源进行数据整合,上游数据应用进行数据消费提供分析决策。



随着业务的不断发展,企业应用产生的数据量和种类不断增加,例如零售行业中常见的包括 POS 交易数据、ERP 数据、网站或小程序的数据,店面中物联网传感器收集来的相关数据,会员管理数据,以及自身内部系统数据等等,而 传统数据平台面对指数级增长的各类结构化、非结构化数据存储,以及机器学习等高级分析应用时,将会面临其功能和扩展性无法满足存储整合和分析的需求。 这时当企业想迁移至大数据平台时,又会发现各种数据库或是数仓语法各异、生态封闭导致迁移成本巨大,也有可能花了大力气迁移后因选型不当很有可能再次被厂商“绑架”,扩容成本高且无法灵活扩展。


另外,使用数据仓库进行分析有两个局限:一是只可以回答预先设定的问题,二是数据已经被筛选包装好,无法看见其最初状态。


随着企业业务场景不断拓展,在 数据分析应用方面呈现“五大转变”


  • 从统计分析向预测分析转变

  • 从单领域分析向跨领域转变

  • 从被动分析向主动分析转变

  • 从非实时向实时分析转变

  • 从结构化数据向多元化转变


数据分析若想真正产生价值服务于业务,业务对于数据平台的运算能力、核心算法、分析工具灵活支持及数据全面性提出了更高的要求,因此数据平台需要通过新的技术进行创新和升级,以满足业务日益增长的功能和性能需求。


数据湖(Data lake)这一技术概念在 2015 年就由 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,它是一种将数据以原始格式存储在同一个系统或存储库的理念,以便于收集多个数据源的数据以及各种数据结构的数据(通常是 blob 对象或文件)。数据湖依托于无限扩展的低成本分布式存储或云对象存储,创建了一个适用于所有格式数据的集中式数据存储,可以存储包括关系数据库的数据(行和列),半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)甚至二进制数据(图像,音频,视频),将企业中的所有数据(从原始数据开始保存,这意味着源系统数据的精确副本)保存于同一个存储介质中,以用于各种分析用途(包括报告,可视化,分析和机器学习)。



以数据湖架构建立数据分析平台能给企业带来无限的想象空间,较低的 TCO 成本可以帮助企业实现各种原始数据的集中式管理,提供统一口径和灵活的分析能力,支撑报表、BI 可视化等场景。


在此之上,结合先进的数据科学与机器学习技术,帮助企业优化运营模型,也能为企业提供其他能力,如价值挖掘、预测分析、推荐模型等,这些模型能帮助企业做出更多灵活的商业决策,促进企业业务的增长 。



随着数据湖概念的不断成熟和落地,越来越多的人也将其与数据仓库作比较,下表是关于数据仓库与数据湖的简单对比:



数据湖与数据仓库的差别很明显,这两者企业中两者的作用是互补的,两者的作用和应用场景不尽相同。


综上,要想建立一个适应企业未来 N 年发展的数据平台,又能支撑海量数据存储及各种分析,同时满足高并发和高性能要求,可以保证在初期有限投入的情况下兼顾灵活扩展性,并且优化运维管理,降低 TCO。 在这种需求下,数据湖就是能够承载当今企业快速发展下的数据之“家”,结合经典的数仓建模方法论,升级企业大数据平台,支撑更大数据量级和更多分析场景,满足日益增长的功能和性能需求。


实现数据价值闭环的第二步:分析平台的建设


如果企业希望搭建自己的数据湖,不仅仅需要考量选择成本经济、灵活扩展的存储方案,还需要识别数据湖中的“黄金数据”并发挥价值。如果数据湖只是一味往里面灌入数据,而无实际的应用场景,没有输出或者极少输出,只会形成单向的数据沼泽,不但要为海量数据支付不菲的存储费用,还无法从中产生业务价值,无法得到令人满意的 ROI。


因此, 数据湖不仅需要各渠道数据的输入,还需要各种应用场景分析的输出。 数据湖分析平台建设中需要考虑的要点如下:


  • 经济灵活可扩展的存储和计算架构,可以根据数据量、查询性能和并发自适应弹性伸缩平台架构,例如云对象存储及 Hadoop、Spark 分布式大数据计算框架,降低运维难度和 TCO

  • 具有常见多数据源的集成能力,包括数据库、数据仓库、文件数据源等,整合企业不同业务线的数据孤岛,统一数据口径

  • 上层数据分析应用的广泛支持,提供 OLAP 数据建模能力,通过标准接口如 ODBC、JDBC、SQL、Rest API 等无缝对接报表、BI、机器学习、数据挖掘、自研分析应用等

  • 需要全面的安全保障,包括用户体系管理(如第三方 LDAP、SSO 集成,用户/用户组管理)、数据权限细粒度管控(表、行列单元格级的访问控制),网络安全(网络 ACL),数据加密,关键操作审计等方面能力



主流云上数据分析服务一览


近年来主流云厂商推出了各自的数据湖的服务,下面以 AWS 和 Azure 为例介绍各自的数据湖解决方案。


AWS Lake Formation:AWS Lake Formation 是 AWS 提供的一项服务,可以为企业快速建立安全的数据湖架构。通过定义数据源,可以识别 S3 、RDS 关系数据库以及 NoSQL 数据库中存储的现有数据,将数据移动到 S3 数据湖中,通过 EMR for Apache Spark(测试版)、Redshift (基于 PostgreSQL 的 MPP 数据库)或 Athena (Ad-hoc 查询服务)进行分析。



Azure Data Lake Storage Gen2:Azure Data Lake Storage Gen2 是 Azure 推出的一项存储服务,‎将现有的两个存储服务(Azure Blob 存储和 Azure Data Lake Storage Gen1)的功能进行整合。Azure Data Lake Storage Gen1 的功能(例如文件系统语义、目录、文件级安全性和规模)与 Azure Blob 存储中的低成本分层存储、高可用性/灾难恢复功能进行了组合,适合作为构建数据湖的存储。


借助 Azure Data Factory 对多数据源的 ETL 进行编排和自动化,将 Databricks 或 HDInsight 等分布式计算引擎对数据进行准备和训练,再通过不同的分析型数据库如 Synapse(前 SQL Data Warehouse)和数据模型服务(Analysis Services)为各种分析场景提供数据服务,结合 Power BI 及 Machine Learning 支撑 BI 报表及机器学习等数据分析场景。



由此可见,各家云厂商正在积极拥抱和布局数据湖生态,整合自有优势服务组件,为企业打造云上数据湖分析服务。 由于服务组件功能各异,不同云厂商数据湖解决方案架构设计也存在一些差异,对于企业来讲,还需要根据自身需要选择合适的解决方案。


本期我们探讨了企业数字化转型及数据湖分析平台建设要点,在下一期,我们会详细介绍企业如何借助 Kyligence Cloud 平台实现云上数据湖自助分析,心动不如行动,让我们一起遨游数据湖!


个人介绍: 孔帅,Kyligence 云产品总监 & 增长负责人,负责 Kyligence Cloud 新一代 AI 智能数据湖分析平台产品功能规划设计及获客增长。专注于传统 IT 向虚拟化、云计算、大数据转型的痛点识别和解决方案设计,帮助客户完成 IT 架构和业务的数字化转型。


本文转载自公众号 Kyligence(ID:Kyligence)。


原文链接


一起建数据湖吗?


2020-11-29 10:114992

评论

发布
暂无评论
发现更多内容

比特币的账户模型

Rayjun

比特币 区块链

Flutter 状态管理Provider快速指南【Flutter 专题 8】

坚果

flutter 签约计划第二季

都在用MQ,Redis的Pub/Sub也可以试着了解下

李子捌

redis MQ 签约计划第二季

模块六作业

bob

「架构实战营」

新能源汽车发展的三种路线及差别

石云升

学习笔记 新能源汽车 11月日更

分布式系统的全局快照

ElvinYang

分布式系统 一致性 全局快照 Chandy-Lamport Flink ABS

巧用代理设计模式(Proxy Design Pattern)改善前端图片加载体验

汪子熙

设计模式 web开发 代理模式 Proxy 11月日更

GitHub标星139K的:“嵌入式Linux系统开发教程”

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

面试官:GET能上传图片吗?

喵叔

11月日更

比较 Flutter 日期选择器库【Flutter专题6】

坚果

flutter 签约计划第二季

DDD与CQRS的关系

Bruce Talk

领域驱动设计 DDD

大专毕业的我狂刷29天“阿里内部面试笔记”最终直接斩获十七个Offer

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

owasp zap 暴力破解测试

喀拉峻

网络安全 安全 信息安全

阿里内部“SpringCloudAlibaba学习笔记”强势来袭,开创微服务的新时代

Geek_1df311

Java 编程 架构 微服务

LRU经常被吐槽,要不试试LFU?本文详述LFU(Least Frequently Used)

李子捌

redis 签约计划第二季

linux双向重定向之tee命令

入门小站

Linux

“退微信群”谣言背后:总有人用阴谋论湮没常识

脑极体

Flutter 中的一切都是一个小部件【Flutter专题5】

坚果

flutter 签约计划第二季

Flutter在各平台的安装与配置(Windows,macos,linux)【Flutter 专题 0】

坚果

flutter 签约计划第二季

Redis之主从复制详述,看完这篇文章不再稀里糊涂

李子捌

redis 主从复制 签约计划第二季

ES6, Angular, React 和 ABAP 中的 String Template(字符串模板)

汪子熙

JavaScript angular React abap 11月日更

Go语言学习查缺补漏ing Day9

Regan Yue

Go 语言 11月日更

Flutter 状态管理概述【Flutter 专题 7】

坚果

flutter 签约计划第二季

金三银四面试必备,“全新”突击真题宝典,阿里腾讯字节都稳了

Geek_1df311

Java 程序员 架构 面试

在Flutter中构建图像选择器【Flutter专题9】

坚果

flutter 签约计划第二季

Redis分布式锁就应该这样学,精细胞与卵细胞的故事告诉你真实原理!

李子捌

redis 分布式锁 签约计划第二季

Redis的LRU(Least Recently Used)算法你了解多少?

李子捌

redis 签约计划第二季

掌握这些核心算法,拿不到10个offer你来找我,我锤你个不争气的

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

Redis值Sentinel(哨兵)详述,图文并茂才能浅显易懂

李子捌

redis redis sentinel 签约计划第二季

Redis集群模式,你若还是一知半解,试试仔细阅读一遍这篇文章

李子捌

redis redis cluster 签约计划第二季

27 K8S之服务发现

穿过生命散发芬芳

k8s 11月日更

一起建数据湖吗?_AI&大模型_apachekylin_InfoQ精选文章