写点什么

一起建数据湖吗?

  • 2020-11-29
  • 本文字数:3191 字

    阅读完需:约 10 分钟

一起建数据湖吗?

在搞数字化转型?


别搞虚的,先整个“湖”吧


信息爆炸的时代,每个行业每天都在产生数以亿计的数据,海量数据的获取、整合及分析挖掘,展现出巨大的商业价值潜力。如何让数据产生价值?首先企业需要将各类业务系统产生的数据进行汇总,其次组合不同维度从中提取有价值的信息,然后再结合业务信息,选择合适的数据分析角度去辅助决策,产生业务价值,而业务价值带来的业务增长又会产生新的数据, 因此数据产生价值是一个不断转化的闭环过程。



实现数据价值闭环的第一步:给数据“安家”


要想实现数据价值闭环, 第一步需要给数据找个家--建立企业数据平台。


早在 1990 年 Bill Inmon 提出数据仓库(Data Warehouse)概念和建设方法论,目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 在数仓理论发展至今的 30 年间,越来越多企业会选用数据仓库架构作为数据平台建设的标准和核心, 分层构建多维数据模型和业务模型层。下游通过 ETL 工具对接各类数据源进行数据整合,上游数据应用进行数据消费提供分析决策。



随着业务的不断发展,企业应用产生的数据量和种类不断增加,例如零售行业中常见的包括 POS 交易数据、ERP 数据、网站或小程序的数据,店面中物联网传感器收集来的相关数据,会员管理数据,以及自身内部系统数据等等,而 传统数据平台面对指数级增长的各类结构化、非结构化数据存储,以及机器学习等高级分析应用时,将会面临其功能和扩展性无法满足存储整合和分析的需求。 这时当企业想迁移至大数据平台时,又会发现各种数据库或是数仓语法各异、生态封闭导致迁移成本巨大,也有可能花了大力气迁移后因选型不当很有可能再次被厂商“绑架”,扩容成本高且无法灵活扩展。


另外,使用数据仓库进行分析有两个局限:一是只可以回答预先设定的问题,二是数据已经被筛选包装好,无法看见其最初状态。


随着企业业务场景不断拓展,在 数据分析应用方面呈现“五大转变”


  • 从统计分析向预测分析转变

  • 从单领域分析向跨领域转变

  • 从被动分析向主动分析转变

  • 从非实时向实时分析转变

  • 从结构化数据向多元化转变


数据分析若想真正产生价值服务于业务,业务对于数据平台的运算能力、核心算法、分析工具灵活支持及数据全面性提出了更高的要求,因此数据平台需要通过新的技术进行创新和升级,以满足业务日益增长的功能和性能需求。


数据湖(Data lake)这一技术概念在 2015 年就由 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,它是一种将数据以原始格式存储在同一个系统或存储库的理念,以便于收集多个数据源的数据以及各种数据结构的数据(通常是 blob 对象或文件)。数据湖依托于无限扩展的低成本分布式存储或云对象存储,创建了一个适用于所有格式数据的集中式数据存储,可以存储包括关系数据库的数据(行和列),半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)甚至二进制数据(图像,音频,视频),将企业中的所有数据(从原始数据开始保存,这意味着源系统数据的精确副本)保存于同一个存储介质中,以用于各种分析用途(包括报告,可视化,分析和机器学习)。



以数据湖架构建立数据分析平台能给企业带来无限的想象空间,较低的 TCO 成本可以帮助企业实现各种原始数据的集中式管理,提供统一口径和灵活的分析能力,支撑报表、BI 可视化等场景。


在此之上,结合先进的数据科学与机器学习技术,帮助企业优化运营模型,也能为企业提供其他能力,如价值挖掘、预测分析、推荐模型等,这些模型能帮助企业做出更多灵活的商业决策,促进企业业务的增长 。



随着数据湖概念的不断成熟和落地,越来越多的人也将其与数据仓库作比较,下表是关于数据仓库与数据湖的简单对比:



数据湖与数据仓库的差别很明显,这两者企业中两者的作用是互补的,两者的作用和应用场景不尽相同。


综上,要想建立一个适应企业未来 N 年发展的数据平台,又能支撑海量数据存储及各种分析,同时满足高并发和高性能要求,可以保证在初期有限投入的情况下兼顾灵活扩展性,并且优化运维管理,降低 TCO。 在这种需求下,数据湖就是能够承载当今企业快速发展下的数据之“家”,结合经典的数仓建模方法论,升级企业大数据平台,支撑更大数据量级和更多分析场景,满足日益增长的功能和性能需求。


实现数据价值闭环的第二步:分析平台的建设


如果企业希望搭建自己的数据湖,不仅仅需要考量选择成本经济、灵活扩展的存储方案,还需要识别数据湖中的“黄金数据”并发挥价值。如果数据湖只是一味往里面灌入数据,而无实际的应用场景,没有输出或者极少输出,只会形成单向的数据沼泽,不但要为海量数据支付不菲的存储费用,还无法从中产生业务价值,无法得到令人满意的 ROI。


因此, 数据湖不仅需要各渠道数据的输入,还需要各种应用场景分析的输出。 数据湖分析平台建设中需要考虑的要点如下:


  • 经济灵活可扩展的存储和计算架构,可以根据数据量、查询性能和并发自适应弹性伸缩平台架构,例如云对象存储及 Hadoop、Spark 分布式大数据计算框架,降低运维难度和 TCO

  • 具有常见多数据源的集成能力,包括数据库、数据仓库、文件数据源等,整合企业不同业务线的数据孤岛,统一数据口径

  • 上层数据分析应用的广泛支持,提供 OLAP 数据建模能力,通过标准接口如 ODBC、JDBC、SQL、Rest API 等无缝对接报表、BI、机器学习、数据挖掘、自研分析应用等

  • 需要全面的安全保障,包括用户体系管理(如第三方 LDAP、SSO 集成,用户/用户组管理)、数据权限细粒度管控(表、行列单元格级的访问控制),网络安全(网络 ACL),数据加密,关键操作审计等方面能力



主流云上数据分析服务一览


近年来主流云厂商推出了各自的数据湖的服务,下面以 AWS 和 Azure 为例介绍各自的数据湖解决方案。


AWS Lake Formation:AWS Lake Formation 是 AWS 提供的一项服务,可以为企业快速建立安全的数据湖架构。通过定义数据源,可以识别 S3 、RDS 关系数据库以及 NoSQL 数据库中存储的现有数据,将数据移动到 S3 数据湖中,通过 EMR for Apache Spark(测试版)、Redshift (基于 PostgreSQL 的 MPP 数据库)或 Athena (Ad-hoc 查询服务)进行分析。



Azure Data Lake Storage Gen2:Azure Data Lake Storage Gen2 是 Azure 推出的一项存储服务,‎将现有的两个存储服务(Azure Blob 存储和 Azure Data Lake Storage Gen1)的功能进行整合。Azure Data Lake Storage Gen1 的功能(例如文件系统语义、目录、文件级安全性和规模)与 Azure Blob 存储中的低成本分层存储、高可用性/灾难恢复功能进行了组合,适合作为构建数据湖的存储。


借助 Azure Data Factory 对多数据源的 ETL 进行编排和自动化,将 Databricks 或 HDInsight 等分布式计算引擎对数据进行准备和训练,再通过不同的分析型数据库如 Synapse(前 SQL Data Warehouse)和数据模型服务(Analysis Services)为各种分析场景提供数据服务,结合 Power BI 及 Machine Learning 支撑 BI 报表及机器学习等数据分析场景。



由此可见,各家云厂商正在积极拥抱和布局数据湖生态,整合自有优势服务组件,为企业打造云上数据湖分析服务。 由于服务组件功能各异,不同云厂商数据湖解决方案架构设计也存在一些差异,对于企业来讲,还需要根据自身需要选择合适的解决方案。


本期我们探讨了企业数字化转型及数据湖分析平台建设要点,在下一期,我们会详细介绍企业如何借助 Kyligence Cloud 平台实现云上数据湖自助分析,心动不如行动,让我们一起遨游数据湖!


个人介绍: 孔帅,Kyligence 云产品总监 & 增长负责人,负责 Kyligence Cloud 新一代 AI 智能数据湖分析平台产品功能规划设计及获客增长。专注于传统 IT 向虚拟化、云计算、大数据转型的痛点识别和解决方案设计,帮助客户完成 IT 架构和业务的数字化转型。


本文转载自公众号 Kyligence(ID:Kyligence)。


原文链接


一起建数据湖吗?


2020-11-29 10:114890

评论

发布
暂无评论
发现更多内容

一文弄懂访问者模式

小小怪下士

Java 程序员 设计模式

GPTCache:LLM 应用必备的【省省省】利器

Zilliz

Milvus Zilliz ChatGPT LLM 语义检索

博睿学院 | 本周四:OpenTelemetry技术在数据标准化中应用实践

博睿数据

可观测性 智能运维 博睿数据 前沿技术 博睿学院

数据开发提效有秘诀!离线开发BatchWorks 六大典型场景拆解

袋鼠云数栈

大数据 离线开发

手把手教你,从零开始搭建Spring Cloud Alibaba!这份笔记太牛了

Java你猿哥

spring Spring Cloud ssm 架构师

阿里内部热捧“Spring全线笔记”,不止是全家桶,太完整了

Java你猿哥

spring Spring Cloud Spring Boot Spring MVC

历史性的时刻!OpenTiny 跨端、跨框架组件库正式升级 TypeScript,10 万行代码重获新生!

华为云开源

typescript Vue 组件库

GitHub程序调优「黑马」!阿里大牛的Java性能优化实战笔记已上线

做梦都在改BUG

Java 面试 性能优化 性能调优

火山引擎数智平台协助洞察美图类APP新增长 付费用户转化超过124%

字节跳动数据平台

大数据 增长 产品增长 企业号 4 月 PK 榜 美图

解决事务隔离产生问题的MVCC

Java你猿哥

Java ssm 架构师 MVCC

软件测试/测试开发丨ChatGPT训练营来,手把手带你玩转ChatGPT

测试人

软件测试 自动化测试 测试开发 ChatGPT

对标大厂的技术派方案设计,带你了解一个项目从0到1实现的全过程

Java你猿哥

Java 架构 ssm 项目设计

看了我常用的IDEA插件,同事也开始悄悄安装了

Java你猿哥

Java 程序员 ssm IDEA 架构师

selenium源码通读·5 |webdriver/common/action_chains.py-ActionChains类分析

Python 源码 测试 自动化测试 selenium

iOS16新特性 | 灵动岛适配开发与到家业务场景结合的探索实践

京东科技开发者

ios 京东云 灵动岛 企业号 4 月 PK 榜

Spring全家桶思维笔记导图(Spring Boot+Cloud+IOC+AOP+MVC等)

Java你猿哥

spring Spring Cloud Spring Boot aop ioc

自阿里P8爆出内部1031道java面试题后,在Boss直聘狂拿千份Offer

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此

Openlab_cosmoplat

开源社区 ChatGPT

物流路由线路配载前端算法逻辑实现方案

京东科技开发者

前端 京东云 京东物流 企业号 4 月 PK 榜

春风送暖,好久不见

BinTools图尔兹

版本发布

解决事务隔离产生问题的MVCC

做梦都在改BUG

重磅官宣,OpenHarmony开发者大会来了!

OpenHarmony开发者

OpenHarmony

Flink CDC 在京东的探索与实践

Apache Flink

大数据 flink 实时计算

上线半天下载量破100W!美团大佬的Java性能调优实战手册,超详细

Java你猿哥

Java 数据库 JVM java编程 Java性能优化

selenium源码通读·4 |webdriver/common分析

Python 源码 测试 自动化测试 selenium

从内核源码看 slab 内存池的创建初始化流程

bin的技术小屋

操作系统 内存管理 Linux Kenel 内核 动态内存池

深度学习基础入门篇[四]:激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

汀丶人工智能

人工智能 机器学习 深度学习 激活函数

PC GWP-ASan方案原理 | 堆破坏问题排查实践

字节跳动终端技术

问题排查 PC

Seal AppManager发布:基于平台工程理念的全新应用部署管理体验

SEAL安全

应用部署 企业号 4 月 PK 榜 Seal软件 SealAppManager

MyBatis整合Springboot多数据源实现

做梦都在改BUG

Java Spring Boot mybatis

面试官:说说MySQL主从复制原理

Java永远的神

MySQL 数据库 程序员 面试 主从复制

一起建数据湖吗?_AI&大模型_apachekylin_InfoQ精选文章