写点什么

DataOps 指南:数据管理新时代来了?

  • 2021-11-08
  • 本文字数:3174 字

    阅读完需:约 10 分钟

DataOps指南:数据管理新时代来了?

DataOps 不只是一种开发方法。它利用民主化的访问和巨大的潜力,彻底改变了组织使用数据的方式。


最近,一项针对企业面临大数据挑战的调查显示,38% 的企业“缺乏”有说服力的商业案例来使用他们的数据,34% 的企业不具备处理大数据技术的成熟流程,24% 的企业没有能力让他们的用户使用大数据。


假如调查的结果是真实的,那么就意味着,很大一部分企业面对自己拥有的数据,以及从客户持续收集的数据,不知道自己能做什么,必须做什么。而这,也会让企业在与竞争对手进行比较时处于非常不利的地位。在数据驱动的竞争环境中,如果企业忽视数据,不能充分发挥数据的潜力,那么对组织而言只能带来灾难性的结果。


目前来看,很多企业都在收集大量的数据,其中一部分是遗留数据管道:随着数据在数据管道中从源移动到目标,每个阶段对数据的含义以及如何使用它都有自己的想法。这种不连贯的数据视图使数据管道变得脆弱且难以改变,从而使组织在面对变化时反应迟缓。


解决这个难题的方法就是 DataOps。

DataOps 是什么?


DataOps 是数据操作化(data operationalization)的缩写,是一种协作性的数据管理方法,它强调组织内部数据管道的沟通、集成和自动化。


与数据存储管理不同,DataOps 主要关注点的不是数据“存储”。它更关心的是“交付”,也就是让数据对所有的利益相关者来说都是现成的、可访问的和可用的。它的目标是为数据、数据模型和相关工件创建可预测的交付和变更管理,从而在整个组织和消费者之间更快地提供价值。


DataOps 通过采用技术来实现这一目标,将数据的设计、部署、管理和交付自动化,从而提高其使用和提供的价值。这样可以让所有使用数据的利益相关者都能很容易地访问数据,而且还可以加快数据分析的周期。


这样一来,DataOps 可以大大提高企业对市场变化的反应时间,让他们能够更快地应对挑战。

DataOps 所解决的挑战和问题


大数据最重要的承诺是快速、可靠的数据驱动的可操作业务洞察力,由于面临着组织、技术和人力(使用数据的人员)等方面众多的挑战,这些承诺仍未实现。DataOps 通过学习和实践敏捷、DevOps 和精益生产方法论来帮助克服这些挑战。


  1. 速度。现代组织依赖来自许多不同来源、不同形式的数据。清理、改进、然后使用这些数据可能是一个复杂和漫长的过程,以至于当最终从中产生洞察力时,它们与快速发展的业务环境已不再相关。DataOps 从根本上提高了从数据中获得洞察力的速度。

  2. 数据类型。有时候,组织收集到的数据可能是非结构化的格式,这让你很难从中获取洞察力。DataOps 使组织能够从其拥有的每个数据源中识别、收集和使用数据。

  3. 数据孤岛。DataOps 打破了组织内部的数据孤岛,并将所有数据集中在一起。与此同时,它构建了弹性系统,使每个需要访问数据的利益相关者都能获得自助服务。在组织内外发生变化时,这些系统也在不断发展,但是它们为“数据用户”提供了可预测的方式来寻找和使用他们所需的数据。


通过克服这些挑战,DataOps 使得 DataOps 团队能够为工程师、数据科学家、机器学习工程师甚是客户等每一个需要的人提供数据,并且比以前更快。简单来说,DataOps 可以带来以下好处:


  • 数据利用率最大化。DataOps 为数据的所有“用户”解锁数据,不管是分析师、高管还是客户。可以实现数据交付的自动化,并在这一过程中让各个部门从数据中提取最大价值。这样做的结果是增加了竞争力,对变化的反应能力,以及更高的投资回报率。

  • 在正确的时间获得正确的洞察力。大数据的一个普遍问题就是在错误的时间获得正确的洞察力,迟来的洞察力是没有用的。DataOps 可以快速地将数据提供给每一个需要的人,从而让他们能比以往更快地做出更明智的决策,使得组织能够快速发展,以适应市场的变化。

  • 提高数据生产率。DataOps 使用自动化工具,以自助服务的形式交付数据。这样就消除了数据请求和数据访问之间的任何固有延迟,使所有团队可以快速地作出数据驱动的决策。DataOps 还使组织摆脱了手工数据管道变更管理流程。相反,对数据管道的所有更改都会简化并实现自动化,以提供快速、有针对性的更改。

  • 针对结果优化的数据管道。DataOps 在数据管道中加入了一个反馈回路,它使各种数据消费者能够确定他们所需要的特定数据,并从这些数据中获得定制的洞察力。每个团队都可以利用这些洞察力来降低成本,发现新的机会,增加收入,并提高组织的盈利能力。

DataOps 的原则


从技术上讲,DataOps 实现了组织最具突破性的里程碑之一——在不影响数据分析的速度和质量的情况下,使其数据程序具有高度的可扩展性。由于它借鉴了 DevOps 的经验和实践,所以 DataOps 在很多关键方面与 DevOps 重叠。从 DataOps 的三个基本原则可以看到:

1.持续集成


DataOps 从不同来源动态识别、整理、集成并提供数据。随着团队为 DataOps 添加了新的数据源,新的数据将自动集成到数据管道中,并通过人工智能/机器学习工具提供给各个利益相关者。


得益于自动化,从数据发现到数据整理、转换和洞察力的定制都已经完全简化。事实上,数据交付可以直接通过实时流交付给预测算法,从而为用户,尤其是消费者提供即时的洞察力。这种优化的数据集成流程确保了数据发现和数据使用之间不会浪费时间。

2.持续交付


组织数据的价值只在于从中产生的洞察力。团队接触到的越多,从中提取的洞察力也就越多。但是,数据的可访问性也带来了数据治理的挑战。DataOps 使整个组织具有可操作性的数据治理,同时使数据访问民主化,并且提高了安全性和隐私性。


为了满足内部数据质量和数据屏蔽规则,有目的地以协作的方式向内部和外部的消费者交付数据。为了达到这个目的,我们经常使用一个“智能”的数据平台。在保证数据质量、隐私和安全的情况下,各利益相关者都可以利用它,并从中获得准确的洞察力,而不用担心数据治理的影响。

3.持续部署


数字化企业依靠大量的数据驱动的应用程序,在对组织的未来有深远影响的功能上做出实时决策。诸如欺诈检测、人工智能聊天机器人、销售、供应链管理等关键任务功能需要随时更新数据以供决策使用。持续部署可以让所有用户无缝地访问新数据。

DevOps 与 DataOps


尽管 DataOps 借鉴了 DevOps 的知识和操作流程,但两者之间有着很大的区别


  • 人的因素。虽然 DataOps 的参与者可能对技术了如指掌,但是他们更关注于为数据用户创建算法、模型和可视化辅助工具。而 DevOps 参与者则是具有运营思维的软件工程师。

  • 流程。DataOps 流程的特点是数据管道和分析开发编排,而 DevOps 流程很少涉及编排。

  • 测试。与 DevOps 不同的是,DataOps 在很大程度上依赖数据屏蔽来进行测试,因此,测试数据的管理就变得非常重要。另外,DataOps 通常会在部署之前在数据管道和分析开发过程中测试和验证数据。

  • 工具。DevOps 拥有一个成熟的工具生态系统,尤其是在测试方面。作为一种新的方法,DataOps 通常要求团队从零开始构建工具,或者为其目的修改 DevOps 工具。

DataOps 平台的演进


在数据分析的早期,ETL(萃取 (extract) 转置 (transform) 加载 (load))工具作为管理大量(相对而言)传入数据的强大工具出现了。但是,随着传入的数据种类、真实性和数量的爆炸式增长,对可扩展性和高速数据分析的需求越来越迫切。数据连接器固有的缺陷也被证明是一个限制性因素。


云计算的出现解决了数据摄取、管理和分析等难题。将 ETL 工具和云资源结合在一起,可以加速分析。但是,仍然面临着一个日益严峻的挑战——数据的可访问性。仅仅使用数据来产生洞察力是不够的,每个人都应该能够获得这些洞察力。


于是,DataOps 应运而生。DataOps 实现了数据访问的民主化。根据组织的数据治理政策,所有的利益相关者都能够获得安全、高质量的数据,而不仅仅是少数人能够访问数据。


作者介绍:

Mir Ali,公认的技术领袖、战略专家,曾在多个组织中担任高级管理职位,包括惠誉(FitchRatings)、Here 和美联航。


原文链接:

https://dzone.com/articles/a-guide-to-dataops-the-new-age-of-data-management

2021-11-08 10:545280

评论

发布
暂无评论
发现更多内容

工赋开发者社区 | 复杂电子装备制造数字化工厂实现逻辑与实施步骤

工赋开发者社区

在 Go 语言单元测试中如何解决 MySQL 存储依赖问题

江湖十年

golang Web 后端 单元测试 测试 单元测试

业务模块在你做之前,一定要多想呀?

Bonaparte

产品 产品经理 产品设计 产品思维 产品需求

容器化应用程序的配置管理策略与实践

DS小龙哥

7月月更

深入理解 HDFS(一):Block

冰心的小屋

hadoop hdfs 数据存储 文件分块 block

合并k个已排序的链表

梦笔生花

RLHF 技术:如何能更有效?又有何局限性?

Baihai IDP

人工智能 强化学习 白海科技 RLHF 大语言模型

工赋开发者社区 | 面向CPS的制造执行系统(MES)实验平台验证

工赋开发者社区

Linux系统安装MySQL详细教程

百度搜索:蓝易云

MySQL 云计算 Linux 运维 服务器

文心一言 VS 讯飞星火 VS chatgpt (68)-- 算法导论6.5 7题

福大大架构师每日一题

福大大架构师每日一题

Mac部署AIGC图片生成服务——基于stable-diffusion

珲少

Spring Boot学习路线1

小万哥

Java spring 后端 Sprint Boot Sprint Cloud

使用Appuploader工具将IPA上传到App Store的最新流程和步骤

雪奈椰子

开心档之CSS !important 规则

请别再问Spring Bean的生命周期了!

java易二三

程序员 Spring Boot 计算机 Spring Bean生命周期

大厂程序员的水平比非大厂高很多嘛?

程序员小毕

Java 程序员 面试 程序人生 架构师

懒得改变原始对象?JavaScript代理模式教你怎样一步步偷懒!

Immerse

JavaScript 设计模式 代理模式 Proxy Design Pattern

从互联网到云时代,Apache RocketMQ 是如何演进的?

阿里巴巴云原生

Apache 阿里云 RocketMQ 云原生

分享一些常用的开源博客社区网站

兮动人

博客 开源社区

解决 go-zero 注册 etcd 出现 “Auto sync endpoints failed.” 的问题

非晓为骁

golang etcd go-zero etcd-client 服务注册发现

iOS 应用上架流程详解

雪奈椰子

探索Linux命名空间和控制组:实现资源隔离与管理的双重利器

柠檬汁Code(binbin0325)

Linux 容器 namespace 底层原理 Cgroups

ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型

汀丶人工智能

人工智能 自然语言处理 NLP 大模型 关系抽取 命名实体识别

基于中文金融知识的 LLaMA 系微调模型的智能问答系统

汀丶人工智能

人工智能 自然语言处理 知识图谱 LoRa NLP 大模型

Appuploader工具让ipa上传到App Store 的最新流程和步骤

2023 云原生编程挑战赛火热报名中!导师解析 Serverless 冷启动赛题

阿里巴巴云原生

阿里云 Serverless 云原生

如何为Spring和Mybatis增加可逆计算支持

canonical

Spring Boot mybatis 低代码 可逆计算 Nop平台

CSS !important 规则

雪奈椰子

活动回顾|火山引擎DataLeap分享:DataOps、数据治理、指标体系最佳实践(文中领取PPT)

字节跳动数据平台

数据中台 数据治理 抖音 DataOps 企业号 7 月 PK 榜

重塑思维模式,实践致富法则

少油少糖八分饱

读书笔记 分享 思维 搞钱 致富

Nodejs快速搭建简单的HTTP服务器详细教程。

百度搜索:蓝易云

node.js 云计算 Linux 运维 HTTP

DataOps指南:数据管理新时代来了?_大数据_Mir Ali_InfoQ精选文章