谈起数据的价值,很多企业都会抢着将其描述为新的石油资源啦、最具价值的新资产之类。但有这样一个秘密,各个企业都不愿、甚至羞于提及——企业收集的大部分数据,根本就没有得到运用。
这些未知及未使用的数据被统称为暗数据,占企业收集到的数据总量的一半以上。有估算称,每天全世界共产生 7.5 x 10008 GB 数据,白白浪费其中大部分数据显然既不科学、也不划算。
在本文中,我们将着眼于暗数据,探讨企业创造了多少此类数据、这些数据为何没有得到分析、以及未能充分运用给企业造成了怎样的成本与业务影响。
在深入剖析之前,我们首先花点时间来明确“暗数据”一词的含义。Gartner 公司将暗数据定义为:
“这类信息资产往往在常规业务活动期间由组织完成收集、处理与存储,但通常无法用于其它目的(例如分析、业务关联以及直接货币化等)。”
为了更透彻地理解这一现象,Splunk 接受委托,对 1300 多名全球商界领袖进行调查,希望深入了解他们收集到的数据总量以及其中暗数据的占比。受访者来自 IT 以及商务等多种职能角色,覆盖澳大利亚、中国、法国、德国、日本、美国以及英国等国家的各个行业。在报告当中,Splunk 将暗数据定义为:“组织当中一切未知及未利用的,由系统、设备以及交互生成的数据。”
在企业收集到的大量数据当中,有多大比例属于暗数据?以下图表显示了 1300 名高管对未使用数据百分比的预估结论:
在企业收集到的全部数据当中,有 55%属于暗数据。在暗数据当中,又分为两大子类别——高管们确定已经收集到、但不知该如何使用的数据;以及他们甚至无法确定是否拥有的数据。
此外,虽然全球的平均暗数据占比为 55%,但其中一部分企业的暗数据比例要比其他企业更高一些。
只有 11%的高管认为组织内的暗数据占比低于四分之一。与此同时,有 33%的受访者认为企业中超过 75%的数据属于暗数据。
法国的商界领袖们认为他们公司的暗数据比例最高。在受访者法国高管中,有 42%表示他们收集到的数据中有超过 75%无法使用。另一方面,中国的管理者则对组织内对收集数据的使用能力充满信心。尽管如此,仍有 44%的受访中国高管认为他们收集的数据中有半数以上属于暗数据。
虽然数据的存储成本随时间推移而不断降低,但如此巨大的数据总量仍会带来可观的存储资源浪费。更重要的是,随着企业对数据资源的运用活动不断增加,数据的战略意义也在持续攀升。考虑到存储成本与数据潜在价值的双重压力,我们不禁要问:为什么这么多数据没能得到使用?
以下图表列出目前暗数据未得到使用的几点主要原因:
总体来讲,暗数据未得到使用的首要原因,在于相关企业缺少捕捉或分析数据的工具。企业能够从服务器日志、GPS 网络、安全工具、通话记录以及网络流量当中积累数据,也能够跟踪从数字交易到服务器机房温度、再到零售货架库存在内的全部信息。然而,这些数据大多位于不同的系统当中,处于非结构化状态,彼此无法对接亦难以进行分析。
第二,捕捉的数据质量不够理想。我们可能掌握着关于交易的重要客户信息,但其中缺少位置或者其它重要的元数据——可能是因为该信息位于其它位置,也可能是其格式不符合收集要求。
此外,之所以存在暗数据,是因为相当一部分数据属于非结构化形式。数据集越大(或者结构化程度越低),分析所需要的工具就越复杂。再有,此类数据集通常要求处理人员具有深厚的数据科学专业知识功底,而这类人才在市场上往往难觅难寻。
外部影响同样非常显著。由于数据泛滥,企业通常不清楚敏感数据的具体存储位置,也无法确定其是否符合 GDPR 等消费者数据保护条例提出的要求。以下两份图表,分别展示了认为自己清楚所有敏感数据所在位置的高管,以及确信所在企业符合消费者数据保护法规的高管的百分比:
根据数字安全厂商金雅拓公司的调查,46%的高管认为他们的企业不清楚全部敏感信息或者私人信息的存储位置。
这种对数据存储位置缺乏了解的状况,导致企业很难保护敏感数据。考虑到数据泄露影响以及相关政府处罚带来的高昂成本,暗数据可能代表着另一笔巨大的隐性开支。到目前为止,收到大额 GDPR 罚单的企业正在迅速增加。
随着企业数据生成的持续增长,与暗数据相关的成本与负债也在不断增加。对于那些希望提高收集数据的可用性与安全性的企业领导者,哪些选项值得优先考量?Splunk 暗数据报告中的图表展示了在受访高管眼中,有望解决暗数据难题的各类解决方案的具体占比:
根据高管们的反馈,最有前途的解决方案无疑是人才。在调查当中,有 76%的高管认为对现有员工进行数据科学培训是一种潜在的理想解决方案,也有 70%认为聘用更多数据专家能够很好地解决问题。
高管们还将引入新型软件解决方案,列为第二大有望解决数据难题的希望。75%的受访者表示,软件产品能够在减少技术员工数量的前提下分析大规模数据集,从而帮助他们逐步攻克暗数据挑战。此外,高管人员还强调了围绕数据价值进行内部培训的重要性,表示有意增加对数据项目以及人工智能技术的投入,并将此作为潜在的解决方案。
随着机器学习与人工智能逐步成为大多数企业采用的主流解决方案,相信数据的价值也将随之提升。与此同时,数据滥用以及保护不当等问题也将令企业身陷更严重的法律诉讼以及黑客入侵泥潭当中。这两大趋势,使得暗数据成为一大不容忽视的现实难题。但好消息是,软件与数据科学训练正成为我们攻克这一难题的有力武器——毕竟如果无法实际使用,我们又何必收集这么多数据呢?
原文链接:
55% of the data collected is “dark data”—data that’s never used
评论