四大特点解析华为云智能数据湖“黑科技”_语言 & 开发_华为云产品与解决方案

PCon全球产品创新大会即将开幕，抢占最后的交流席位！了解详情 



 写点什么

如果有人问数据湖是什么，我会告诉他们，是“桶装水”的集合。

随着企业业务的发展，数据出现井喷，数据量呈几何增长，数据来源和类型更加多元化。传统数据仓库就如同“桶装水商店”，已经承载不了全部水体，因此需要一个可以满足存储需求的，新的架构作为大数据的支撑。

这就是数据湖。它汇聚不同数据源的溪流，包括大量无序的非结构化数据（文本、图像、声音、网页等）。我们把它倒入数据湖，然后开始探索该数据。我们希望这是一个包含所有数据的，一个超快、易于访问的存储库，能解决集成难题的终极方法。

但实际上，存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出分析结论，将持续在数据质量和治理方面发出危险信号。业内给这种问题起了个名字，叫数据囤积障碍。

爆炸式增长的数据及数据孤岛

你应该明白了。只为了保存数据而存储数据，不是一个好主意。我们应该有一个明确的使用目的，然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时，就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例，传感器会产生奇大无比的数据量，但大多数时候其实我们只是在意一些极端值而已，比如温度超出了某个阈值范围。下图为某物联网公司的业务示意图。

首当其冲的挑战便是，数据存储、数据处理、AI 组件众多。处理难度极大。

紧接着，数据孤岛问题接踵而至。

多种数据源，每种数据单独在一个库中，业务人员需要在应用层做数据集成/数据搬移，技能要求高，工程耗时长。

数据量日益增大，数据源日益增多，单个库扩容困难，性能下降，成本高，难以做跨市跨省等全量数据分析。

缺乏高级分析工具，前沿技术，如机器学习、图计算、深度学习等，未能充分利用多种数据深入挖掘价值。

用智能解决非智能

鉴于数据湖现状，我们如何利用它们为企业带来优势？这里是智能数据湖整体解决方案，包含四个关键的实践：融合，高效，易用，智能

融合—云化的 hadoop

统一数据存储，再无数据孤岛；开放格式，丰富的数据类型：JSON, CSV, AVRO，图片，视频等；开放接口，兼容原生社区应用：100%兼容 OBS 和 HDFS 接口，总而言之，我们在数据湖中处理数据，试图找到新的洞察力。我们不会，任由数据处于最原始的格式，我们将优化数据。确保数据得到治理，确保数据在语义上一致，并满足业务的要求。

高效

一个字：快。实时数据实时分析， Apache CarbonData 加速，万亿数据秒级响应

易用

做一个一站式、端到端开发工具，支持大数据+AI 敏捷开发。可视化，代表丰富的可视化组件，图形化编辑界面，同时支持定制；而数据湖一站式开发工具，可管理多种大数据服务，实现跨服务作业编排调度；支持拖拉拽，预设 10 多种任务类型。

最后，对于数据标准，数据质量，数据安全的治理不可或缺。

数据湖治理：一站式治理平台（数据标准，数据质量，数据安全）

智能

重点绝不仅仅是数据，而是始终关于你要做什么工作。使用场合是什么，你可以运用什么应用程序来处理该数据以便从中受益——用智能实现高效。

智能元数据采集，统一数据视图
智能数据管理，无需人工拷贝
智能优化建议，免 DBA

对数据进行“联系”，而不是“收集”。相比将数据转移到越来越大的集群或数据仓库，让数据待在数据湖进行智能化处理，来得更省钱、更容易也更高效。

本文转载自华为云产品与解决方案公众号。

原文链接：https://mp.weixin.qq.com/s/WbThmozRynwx1vOkaUDzfA

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
InfoQ
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区叶青大厦北园
InfoQ 近期会议
ArchSummit全球架构师峰会 3月24-25日
PCon全球产品创新大会 3月25-26日
DIVE全球基础软件创新大会 3月25-26日
ArchSummit全球架构师峰会 4月24-25日
QCon全球软件开发大会 5月12-14日
GMTC全球大前端技术大会 6月10-11日
ArchSummit全球架构师峰会 7月15-16日
PCon全球产品创新大会 8月19-20日
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

四大特点解析华为云智能数据湖“黑科技”

爆炸式增长的数据及数据孤岛

用智能解决非智能

融合—云化的 hadoop

高效

易用

智能

评论

架构师第二期第7周总结

架构师训练营第 7 周学习总结

第十一周架构方法学习总结 —— 安全稳定

Architecture Phase1 Week11:HomeWork

架构师训练营第 1 期 week11 总结

架构师训练营 - 第 11 周课后作业（1 期）

架构师训练营第 7 周课后练习

架构师训练营第十一周课程笔记及心得

Week7-性能优化-作业1

Week7-性能优化-总结

Spock单元测试框架实战指南二-mock第三方依赖

LeetCode题解：55. 跳跃游戏，贪心，JavaScript，详细注释

架构师训练营第2期第7周命题作业

架构一期第十一周作业

第 11 周作业

架构师训练营第 1 期 -- 第十一周学习总结

架构师训练营week11作业

架构师训练营第七周作业

第十一周学习总结

Week7 作业

第 11 周怎么又翻车了？？？

11 安全稳定课后作业

第七周作业

架构师训练营第七周小结

Architecture Phase1 Week11:Summarize

架构师训练营第十一周学习总结

第 7 周系统架构总结

第十一周作业

架构师训练营第 1 期 week11

什么样的股权，才算“到手”？| 法庭上的CTO(3)

架构师训练营week11总结

创作场景

四大特点解析华为云智能数据湖“黑科技”

爆炸式增长的数据及数据孤岛

用智能解决非智能

融合—云化的 hadoop

高效

易用

智能

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载