点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

漫谈“数据湖”(上)

  • 2020-02-09
  • 本文字数:1102 字

    阅读完需:约 4 分钟

漫谈“数据湖”(上)

一、数据湖概念的提出

数据湖这一概念,最早是在 2011 年由 CITO Research 网站的 CTO 和作家 Dan Woods 首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”


1562132187468076467.jpeg


"数据湖"的核心价值在于为企业提供了数据平台化运营机制。随着 DT 时代的到来,企业急需变革,需要利用信息化、数字化、新技术的利器形成平台化系统,赋能公司的人员和业务,快速应对挑战。而这一切的数据基础,正是数据湖所能提供的。

二、数据湖特点

数据湖本身,具备以下几个特点:

1)原始数据

海量原始数据集中存储,无需加工。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志, XML, JSON),非结构化数据(电子邮件,文档, PDF)和二进制数据(图像,音频,视频)。也就是数据湖将不同种类的数据汇聚到一起。

2)按需计算

使用者按需处理,不需要移动数据即可计算。数据库通常提供了多种数据计算引擎供用户来选择。常见的包括批量、实时查询、流式处理、机器学习等。

3)延迟绑定

数据湖提供灵活的,面向任务的数据编订,不需要提前定义数据模型。

三、数据湖优缺点

任何事物都有两面性,数据湖有优点也同样存在些缺点。


优点包括:


  • 数据湖中的数据最接近原生的。这对于数据探索类需求,带来很大便利,可以直接得到原始数据。

  • 数据湖统一企业内部各个业务系统数据,解决信息孤岛问题。为横跨多个系统的数据应用,提供一种可能。

  • 数据湖提供了全局的、统一的企业级数据概览视图,这对于数据质量、数据安全…直到整体的数据治理,甚至提高到数据资产层面都大有裨益。

  • 数据湖改变了原有工作模式,鼓励人人了解、分析数据;而不是依赖于专门的数据团队的”供给”方式,可以提升数据运营效率、改善客户互动、鼓励数据创新。


1562132198142073859.jpeg


缺点主要体现在:


  • 对数据的归集处理程度明显缺失,对于试图直接使用数据的用户来说显得有些过于“原材料”化,且数据太过冗余。应对这一问题,可通过”数据接入+数据加工+数据建模”的方式来解决。

  • 对数据湖基础层的性能有较高要求,必须依托高性能的服务器进行数据处理过程。这主要是来自于海量数据、异构多样化数据、延迟绑定模式等带来的问题。

  • 数据处理技能要求高。这也主要是因为数据过于原始带来的问题。


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/267


2020-02-09 15:08816

评论

发布
暂无评论
发现更多内容

架构一期第十周作业

Airs

【架构师训练营第 1 期 10 周】 作业

Bear

极客大学架构师训练营

【架构师训练营第 1 期 10 周】 学习总结

Bear

极客大学架构师训练营

Week 6 学习总结

evildracula

学习 架构

架构师训练营第十周学习总结

文智

极客大学架构师训练营

第 6 周 系统架构总结

心在那片海

Week6 (技术选型二)作业1

Sean Chen

【第十周】课后作业

薇凉

Week6 (技术选型二)作业 2

Sean Chen

week 6 学习笔记

willson

架构师训练营week10总结

FG佳

《Python数据科学入门》PDF免费下载

计算机与AI

Python 学习 数据科学

架构师训练营第一周”架构方法“学习笔记

随秋

极客大学架构师训练营

架构师训练营第一周”架构方法“作业

随秋

极客大学架构师训练营

训练营第六周总结

大脸猫

极客大学架构师训练营

第六周作业

willson

极客大学架构师训练营

成为架构师 - 架构师训练营第 06 周

陈永龙Vincent

架构师训练营第六周学习笔记

李日盛

笔记

Week 6 作业

evildracula

学习 架构

架构师训练营week10

FG佳

架构师一期

架构师训练营第十周课程笔记及心得

Airs

第 6 周 系统架构作业

心在那片海

架构师训练营 1 期 -- 第十周作业

曾彪彪

第六周 cap原理

落朽

Spring中的线程池与任务调度

Rayjun

Java spring 线程池

身为一名优秀的程序员,如何避免满屏的写 if else!

Java架构师迁哥

第十周学习总结

knight

第10周总结

alpha

极客大学架构师训练营

BATJ一线大厂面试必问的4大框架源码,该如何学习?

Java架构师迁哥

第十周作业

wanlinwang

极客大学架构师训练营

【第十周】课后作业

云龙

漫谈“数据湖”(上)_文化 & 方法_韩锋_InfoQ精选文章