数据是黄金还是垃圾?

2020 年 5 月 29 日

数据是黄金还是垃圾?

数据是黄金还是垃圾?


互联网的出现,特别是移动互联网的飞速发展产生了大量的数据。这些海量数据是公司开展业务的宝贵财富。经常有人说:“数据是未来的石油”,“数据是未来的钞票”,“数据是未来的黄金”。如果数据真的那么有价值,那么无限增加数据就会带来无限的价值,公司光靠不断积累数据就能成为世界上最有价值的公司。事实上,今天庞大的数据存储量已经为各公司带来了沉重的技术和财务负担,那么数据到底是黄金还是垃圾呢?


数据的价值


对大多数公司而言,挖掘数据所产生的价值对业务影响极大。例如,各种商业活动会在交易平台上产生不同的交易数据,这些数据经过清洗、过滤、整理和分析可以提供给商户,完成客户服务、精准营销、风险评估等各种工作,为公司带来价值,因此,从这个角度来说,数据的价值如同黄金一般珍贵。



数据的成本


存储数据是需要成本的,数据的成本绝非只有物理存储空间成本那么简单,实际上它包括了下述五种成本要素:


  • 物理存储器


各种专用或通用的数据存储设备或者分布式存储设备


  • 人员和软件


为了有效地管理存储而必须配备的人员与软件所投入的资金和努力


  • 电力和空间


为确保存储系统能正常运行所需要的电力和 IDC 机房空间的投入


  • 遍历的时间


为了检索数据而不得不遍历存储空间所耗费的时间


  • 灾备的成本


为了保证数据安全而进行数据备份所需要的各类资源,数据的成本 = 物理存储器 + 人员和软件 + 电力和空间 + 遍历的时间 + 灾备的成本。



数据的成本价值困局


数据对企业的价值并非相同。在许多企业中,时间会减低我们可以从任何特定数据元素中所获得的价值。例如,很多旧数据对建立交易模型用处不大。某个客户与电子商务平台交互的旧记录可能有用,但其价值远不如最新的数据。电话公司几年前的详细通话记录没有最新的通话记录对用户的价值大。三年前的银行交易记录不如最近几个星期的有用。人们可能会偶尔看一下老照片和老视频,但是经常看的还是最近上传的新照片和新视频。虽然我们不能说所有的旧数据都没有新数据价值大,但在大多数的情况下,新数据更有价值是一个事实。



上面的表达方法叫 RFM 图,R 代表数据的产生时间(Recent), F 代表数据的使用频率,M 代表以货币表达的数据价值(Monetary)。从上面的 RFM 图可以看出,越是最近产生,越是经常使用的数据其货币价值越高(右后上方的顶点)。相反,产生很久,而且不常使用的数据几乎没有什么货币价值。


如果数据的价值随着时间的推移而降低,那么为什么我们还要保存那么多的数据呢? 我们把这个问题叫作数据的成本价值困局。大多数公司并没有对数据价值随时间的推移逐渐降低和维持高速增长的数据成本这些事实引起高度注重。通常情况下,更新、更快存储技术的出现使我们能够以更低的初始成本来存储相同数量的数据,或者用相同的成本来存储更多的数据。随着单位存储成本的下降,我们要保存更多数据的愿望也逐渐膨胀。在高速增长的公司,除了要考虑数据的价值很可能会随着时间的推移而降低的事实之外,我们还要考虑虽然单位存储成本下降,但保存数据的总成本极有可能增加的事实。如何对此做出合理的决策对大多数企业提出了独特的新挑战。


成本与价值匹配的策略


如果法律或法规要求你保留历史数据,比如电子邮件或财务交易记录,那么别无选择,只能遵守法律。在其它情况下,你可以对数据的价值和保存它的成本进行评估。


MBA 课程往往花费大量时间去讨论什么样的客户是非赢利性客户。所谓的非赢利性客户是指那些为了维持这些客户,所花费的成本超过从其本身所能获得的利润。利润也包括由于这些客户的引见而带来的业务所产生的利益。在理想情况下,最好不要保持非赢利性客户或停止继续为他们提供服务。筛选非赢利性客户的概念同样也适用于筛选数据。在大多数情况下,经过足够的调查分析,你很有可能会发现什么数据能增加收益,什么数据会降低收益。就像某些客户不能给企业带来利润一样,某些数据能带给我们的价值远低于用于维护它们所花费的成本。


每种选择方案都有一定的价值。准确的价值则取决于最终所选择的方案能够带来的利益。数据选项的价值有限度,为了给这个价值一个界限,我们应该开始回答下述五个问题:


  • 我们过去经常依靠数据做出有价值的决定吗?

  • 在那个决定中,我们使用多久以前的数据?

  • 该数据最终创造的价值是多少?

  • 维护这些旧数据的成本是多少?

  • 平衡成本,最终的结果我们赢利吗?


提出这些问题并不意味着要从系统中删除所有的数据。如果没有一些有意义的数据,平台可能无法运作。确切地说是要指出应该评估和质疑保留数据的策略,以确保所有保存的数据都有价值。如果在过去你没有依靠数据做出更好的决定,那么从明天开始使用所有数据的机会也不会太大。即使你开始使用数据,也不太可能使用所有的数据。因此,应该确定:


  • 哪些数据具有真正的价值?

  • 哪些数据有价值但应该存储在低成本的存储系统?

  • 哪些数据可以删除?


然而,在大多数情况下,数据的价值会随着时间的推移而降低,无限的数据不等同于无穷的价值。两者会有一个平衡点,在该点之后,旧数据的价值开始明显地衰减。因此需要了解数据的价值,把数据在某一年的价值与之前二年、五年的价值进行比较,以此类推,从而确定一个数据不再带来赢利的时间点和额外数据的增加会对保留客户、做出更好决策等等带来的接近于零价值的时间点。



解决困局方案


分层存储


在认识到某些数据具有巨大价值、某些数据具有较低价值、某些数据可能有价值、某些数据根本没有价值之后,我们就可以为有价值的数据设计一种以成本为划分标准的分层存储方案,并删除具有较低价值或没有价值的数据。还可以将数据进行转换和压缩以确保以显著的低成本保留大部分有价值的数据。



假设一家公司确认它的一部分数据具有真正的价值,但存储成本高于数据所创造的价值。这意味着到了应该考虑分层存储方案的时候了。许多公司以业务处理系统的需求为主选择某种类型的存储系统。这个决定的结果是几乎所有系统和应用都依赖优质的存储系统。尽管绝不是所有的其它系统都需要冗余性、高可用性和与主要业务处理系统一样快的响应时间。对于具有较低价值的服务和需求,可以考虑使用数据的分层存储方案。


例如,可以把不经常访问,不需要立即响应的数据存放在较慢的、低成本和低功耗的存储设备上。另一个选择是分割架构,以服务其中的某些应用的数据需求,以解决“存档数据服务”的功能。为了节省处理能力,也许对“存档数据服务”的请求以异步方式进行发送,当结果生成后发电子邮件通知。


也有许多其他的选择可以通过分层的解决方案来降低成本。不常访问的客户数据可以放在云存储系统。对于旧的和不变的数据,可以把它们从数据库中删除并以静态形式存储。数据越旧,就越不被频繁地访问到;因此,随着时间的推移,可以转移到较低的存储层。


该解决方案匹配成本及其所能创造的价值。并不是每个系统或每条数据都能对公司的业务提供相同的价值。通常我们根据公司员工的技能或对公司的价值为员工支付薪水,那么,为什么不以同样的方式去设计系统呢?如果某组数据有价值,但不多,那只需为它们构建一个能和它们的价值相当的系统。这种方法确实存在一些缺点,例如要求运维人员支持和维护多个存储层,但只要对这些额外成本进行适当的评估,分层存储系统就可以适用于许多公司。


数据转换


数据转换所遵循的原则是基于 ETL“提取、转换和加载”(Extract, Transform and Load)的过程。ETL 的概念可以帮助你避免在业务系统中存储大量数据。在理想情况下,这些 ETL 过程,除了从主要业务系统中删除数据之外,与保留同样时间段的原始数据相比,它还会减少对整体存储量的需求。将昂贵的详细记录浓缩成汇总表和事实表,致力于回答特定的问题,有助于节省空间和加快处理。



例如,如果要做出正确的业务决策,需要考虑到市场营销部门所关心的每个客户行为的需求。市场营销部门可能对在一段时间内购买一定数量以上产品的人口统计分析有兴趣。为了满足这些需求,保存每次购买的原始记录可能是最灵活的方式,但是市场营销部门可能觉得也可以按月统计客户购买产品的数量。突然之间,对数据的要求降低了:因为许多客户都是回头客,所以可以把每个原始交易记录拆分成买方记录、交易物品记录和每月购买物品数量记录。现在可以把在线交易记录保持四个月,以便生成最新的季度详细报告,然后把这些具体的交易信息汇总成买方个人摘要提供给市场营销部门,同时汇总成内部各部门摘要提供给财务部门使用。实施这个计划后,需要存储的数据量可能减少高达 50%。此外,这个计划也帮助我们降低了应用生成报表所需的响应时间,提高了市场营销部门的效率。


又如,如果以提供更好客户体验数据处理为宗旨,那么当客户使用平台时,我们可能会向客户推荐产品。这些推荐可能包括其他看过或买过同类产品的客户还购买了什么其他的产品。当用户在选购时,应用程序通过扫描所有的购买记录来计算和展示该客户与产品关联的图表,这项工作可能太复杂,在这么短的时间里根本无法实现。出于这个原因,我们希望提前处理和保留产品与客户的关系。这样,在计算的同时也减少了存储所有历史交易细节的必要。产生预处理关系图表不仅加快了对客户的响应时间,而且也减少了长期保存数据的需求。


总结


数据变旧和数量增长,会使公司的运营成本增加。同时在数据变旧之后,对企业的价值通常会降低。执著于那些过期数据价值的原因包括无知、感性的选择价值。我们应该用真正的货币价值而不是感性的、主观臆断的价值来正确地分析数据存在的价值。


在确定了数据价值及其成本之后,则应考虑实施分层存储系统,使数据存取的成本和数据所带来的价值相匹配。这种分层策略,一方面是采用先进的高速存储设备;另一方面是删除或清理价值较低的数据。对于那些即使在数量上有所减少却不会显著改变其价值的数据,数据转换和汇总能够将有助于降低成本和增加盈利。


2020 年 5 月 29 日 15:3074

评论

发布
暂无评论
发现更多内容

架构师训练营 1 期 - 第九周总结(vaik)

行之

极客大学架构师训练营

训练营第九周作业 2

仲夏

极客大学架构师训练营

常见的负载均衡实现方案

幸福小子

负载均衡架构

极客时间架构 1 期:第 9 周 性能优化(三) - 命题作业

Null

第九周作业

solike

第五周 作业

Geek_9527

Python进阶——如何正确使用魔法方法?(上)

Kaito

Python

架构师训练营 2 期 - 第五周总结

Geek_no_one

极客大学架构师训练营

第九周学习总结

orchid9

文件上传踩坑记及文件清理原理探究

比伯

Java 大数据 编程 架构 计算机

架构师训练营 1 期 - 第九周作业(vaik)

行之

极客大学架构师训练营

架构师训练营 - 作业 - 第九周

Max2@12

架构师训练营 2 期 - 第5周命题作业

Geek_no_one

极客大学架构师训练营

数据库工程师整理最常见mysql面试题,每一道都是工作面试经典

小Q

MySQL 数据库 学习 架构 面试

架构师训练营第九周课后练习

第九周作业

Meow

第九周作业

Geek_ce484f

极客大学架构师训练营

一致性 hash 算法的实现

幸福小子

一致性Hash算法

Snowpack - 更快的前端构建工具

曲迪

效率工具 前端 前端工程化 前端进阶

第九周学习总结

Meow

极客时间架构 1 期:第 9 周 性能优化(三) - 学习总结

Null

一致性hash算法

落朽

第五周总结

Griffenliu

第九周总结

solike

第九周作业总结

Geek_ce484f

极客大学架构师训练营

五周 - 作业

水浴清风

一致性hash

架构师训练营 - 第九周 - 作业一

行者

请简述 JVM 垃圾回收原理

orchid9

第五周作业

Griffenliu

第五周学习总结

晴空万里

极客大学架构师训练营

训练营第五周总结

大脸猫

极客大学架构师训练营

数据是黄金还是垃圾?-InfoQ