什么是数据云?
在讲数据云的概念之前,我们先来了解一下企业数字化转型的背景。
企业在数字化早期,信息系统都是用烟囱式架构建设,孤立的系统需要花费大量精力和资源来维护和管理,从而使得数据在不同系统之间共享和交换变得非常困难。同时,孤立的系统也会存在数据处理速度慢的问题,企业无法以足够快的速度处理实时数据,也就无法实现数据智能。另一些企业则可能会发现很难统一数据,以获得新的数据洞见或者使数据可供需要的人员即时访问和共享。
即便使用现代数据工具,组织也无法轻松地将其与现有系统集成,并且会在扩缩和管理遗留 IT 基础架构时遇到困难。团队往往将大部分时间花在数据清洗上: 在正确的时间,将格式正确的数据,放到正确的位置上,因此很少或根本没有时间进行有意义的数据分析。
现有技术无法解决现存的困难,就会催生新技术或新方法,于是数据云诞生了,数据云提供了一个基于云或者云原生的融合数据基础架构,可实现企业数据的集成、存储、治理、建模、分析、挖掘和流通。利用融合数据基础架构的云特性,可以按需提供计算、存储、分析和建模功能,使企业能够利用其数据来推动其转型并创造价值。
我们为什么需要它?
近几年,随着数字化转型的深入,企业的应用、数据和基础设施的结合越来越紧密,原本以资源为中心的传统云已经不能满足现阶段企业数字化转型的需求,而以数据为中心的数据云正在成为企业数字化基础设施建设的新方法。
数据、应用和智能是数字化的三大核心生产资料,数据云在一个 PaaS 平台上提供包括数据仓库/数据湖、数据治理、数据智能与分析、数据交易与共享等在内的完整的数据解决方案以及应用生命周期管理能力。数据云可以通过构建统一的数据湖,消除数据碎片化并充分利用数据的全部潜力。数据云可以更轻松地统一、连接和提供数据,它提供具备弹性能力且可靠的交易数据库、分析数据库、大数据平台和机器学习系统来推动创新、改善体验并更快地实现业务价值。
数据云通常包括以下组件和功能:
统一的元数据和数据存储:通常包含一个统一的数据湖,以存储从源系统收集的所有数据,包括结构化、非结构化或半结构化数据,从而降低复杂性并简化数据发现。
敏捷的数据架构:数据云可以按需部署云数据库、ETL 引擎、流处理引擎、数据治理工具等数据服务。
内置的 AI 和机器学习功能:智能功能(例如自助式分析、AI 和机器学习)可帮助企业节省时间和人力并支持创新。
数据治理:提供完善的数据开发、数据治理、数据质量、数据标准等工具集,用于发掘数据的价值。
数据安全和基础设施安全:数据云需要提供安全的底层基础设施,包括计算、网络、存储安全,并在此基础上提供数据安全,包括数据分类分级、数据脱敏、数据安全审计等能力。
数据云与云数据库的区别
在谈论数据云的时候很容易和另外一个概念“云数据库”相混淆,我们在此做一个区分。大数据和云计算的结合,最初主要是以云数据库或者云数据仓库这样的形态出现。云数据库通常指由私有云或者公有云厂商提供的数据库服务,用户只需要以服务的形式申请和使用,而无需关心底层的部署及运维,云厂商结合云计算底层能力解决了数据库的自动化、备份、可扩展性、可用性等运维需求。云原生数据库相较于云数据库,使用方式不变,基础架构则从传统的云计算技术变为云原生技术,从而更加轻量、敏捷、弹性和低成本。
而数据云包含了云数据库能力,更加准确的说是数据库即服务的能力(DBPaaS)。数据云以最终实现数据的业务价值为导向,将各种数据库、分析工具、大数据平台、人工智能工具做了场景化的整合,以服务化的方式提供基础能力(例如云数据库),以及面向数据和企业场景的数据开发、数据流通、数据治理、数据安全防护等能力。
数据云在各行业的应用场景
数据云的主要目标是让数字化转型变得更简单、更智能。我们知道企业数字化转型不是一蹴而就的,需要分步进行,我们可以将数字化转型分成信息化、数据资产化、数据业务化、数据生态化四个阶段,任何企业、任何行业想要全面数字化转型都要经过这四个阶段。
企业在信息化阶段产生海量数据,在数据资产化阶段把信息化阶段产生的数据集中治理形成数据资产,在数据业务化阶段又需要第二阶段形成的数据资产来驱动业务本身,而到了数据生态化阶段,数据已经不再只服务于某个组织或者某个企业,而是作为生产要素开始在组织之间、企业之间流通,发挥出更大的价值。这四个阶段环环相扣,缺一不可,基于这四个阶段的底层技术支撑也需要同步升级。
数据云就是能够解决这个四个阶段不同问题的新方法,数据云可以通过整个平台的计算、存储能力以及数据云产品架构的优化,为大数据服务提供高性能的存储和分析能力。同时,也基于整个数据云平台底层资源的复用和服务的有效调度,为大数据的存储和计算提供更高性价比的实现,加速各行各业的数字化转型,事实上,在星环科技的推动下,数据云已经在多个行业有落地。
在政府行业,通过数据云可以帮助省级、市级大数据中心建设统一的数据共享交换平台,打通各部门信息系统、打破‘数据孤岛’”建成对接国家平台,覆盖全市、统筹利用、统一接入的数据共享交换平台。 早在 2019 年星环科技基于自研数据云平台 Transwarp Data Cloud (TDC )为上海市大数据中心数据共享交换平台提供大数据支撑管理子系统,为汇集政务数据提供大数据存储和计算能力支撑,支持多个应用系统运行、用于数据存储和查询;数据范围包括 49 家市级委办局、16 区县、四大库等各类数据。数据共享交换平台接入更多市政部门系统数据,一网通办平台可以做更多业务查询和处理。
在银行行业,随着大数据技术的不断发展,各银行也开始投身到大数据应用实践中,而大数据平台是支撑银行业大数据应用的基础。为适应互联网时代银行业务和技术发展形势,大范围提升大数据应用、管控和服务能力,江苏省联社及各农商行积极开展大数据技术的探索研究。
江苏农信在数据云的加持下,建设大数据 DAAS 应用平台,实现了各租户之间的资源、数据、应用、组件的完全隔离,为各农商行提供了一整套大数据基础平台和大数据应用解决方案,切实有效的提高了农商行大数据应用和分析能力。星环科技 TDC 为其提供强大的存储计算能力,加速农村金融机构数字化转型进程。
在能源行业中,以中化集团为例,中化为响应国资委在《关于 2019 年进一步加强中央企业集团管控信息化工作有关事项的通知》中对央企提出的“大系统、大平台、大数据”信息化要求,同时为了推进集团“线上中化”的战略目标,助力集团各业务单位实现数字化转型。
中化集团基于数据云构建分析 Paas、数据 Paas、应用 Paas 为一体的数据共享交换体系,通过数据接口、安全接口、资源接口、微服务接口对接业务,实现平台云+数据云+应用云三云融合。星环科技 TDC 为中化集团大数据平台提供一站式的大数据解决方案,能够充分整合和管理企业各个系统全生命周期数据,快速挖掘数据背后的价值,落地丰富的数据应用场景,形成数据驱动的闭环迭代生态,赋能业务,综合提升企业管理和运营能力。
星环科技数据云平台 TDC,早在 2018 年发布 1.0 版本,是国内最早推出数据云产品和解决方案的企业,截至目前 TDC 已经为政府、银行、基金、能源等多个行业提供完整的数字化建设解决方案。
作者简介:
王天青,星环信息科技(上海)股份有限公司数据云负责人
评论