“大数据”概念已经出现超过 15 年,在褪去了社会大众对其浮躁的认知后,已在各领域成熟应用,从最开始的互联网搜索行业,再到企业运营和生产制造,继而扩展到城市治理和教育医疗等。
当“大数据”从少数机构的技术杀手锏,变成每个企业都可以快速应用的通用技术,技术演进貌似也已经进入一个相对平稳的阶段。我们不禁要问,大数据的未来在哪里?
我们今天不讲那些大家耳熟能详的经典应用案例,而是从笔者一个“另类”的大数据体验说起。
你玩的是游戏,别人玩的是“大数据”
去年,”吃鸡”游戏《绝地求生》大火,我也积极相应朋友圈的号召,在加班之余投入到吃鸡大军中,当然,绝大多数时候都免不了在开局初期就成 “盒”(被击杀)。
于是,为了提高战绩,一些玩家换了 1080Ti 显卡,在高位升级了 2 条内存,还买了个高性能鼠标,但仍然是每局悲剧。再次验证了毛主席说的:“决定战争胜负的不是一两件新式武器”。
直到我最近看到一篇文章,从大数据的角度对 20G 的游戏日志数据进行了分析,让部分玩家恍然大悟。
文章作者获取到了近 70 万次游戏内击杀的数据集,然后使用 Mathematica 工具进行了简单的大数据分析,得出了几条结论。
首先通过分析击杀者和被击杀者的相对位置信息,得出“在房屋视觉死角方向靠近房屋可以大幅降低被击杀的几率”的结论。
2.通过分析击杀发生的坐标信息,分析出游戏中的最容易发生击杀事件的区域,玩家可以根据自己的游戏策略,选择进入高危区域或者躲避高危区域。
3.通过击杀次数统计,得出“击杀 15 名对手的玩家,有 75%的概率能赢得比赛”的结论。说明,在游戏中,只有多击杀对手,才是获得最终胜利的关键。
遵循着大数据分析给出的结论,我又上手玩了几天,虽然还是没有吃到鸡,但是整体的游戏表现比之前有了大幅提升。所以,只要有数据,人人都可以通过大数据获益。
大数据是怎么走到今天的
2004 年前后,某知名搜索引擎 G 公司发表了三篇论文,标志着计算机大数据时代的开启。三篇文章分别是《分布式文件系统 GFS》、《分布式计算框架 MapReduce》和《NoSQL 数据库 BigTable》,俗称“三驾马车”。
2005 年, Hadoop 因其技术的高效性,被社区引入成开源应用。
2008 年末,计算社区联盟 (Computing Community Consortium),发表了白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,该组织也成为第一个提出大数据概念的机构。
2010 年,肯尼斯.库克尔在《经济学人》上发表大数据专题报告《数据,无所不在的数据》,成功地洞见了大数据时代的趋势。
2012 年,维克托•迈尔•舍恩伯格出版了《大数据时代:生活、工作与思维的大变革》一书,提出了大数据的核心就是预测。该书也成为的大数据入门必看读物。
2012 年,美国政府在白宫网站发布《大数据研究和发展倡议》,标志着大数据已经成为重要的时代特征。
2014 年,中国《政府工作报告》中首次出现“大数据”一词,掀起国内大数据研究和应用浪潮。
2016 年,Spark 在大数据行业开始流行,许多 IT 行业大企业都纷纷拥抱这个经济实惠的分布式计算开源框架。标志着大数据领域一个新的技术里程碑。
2019 年,知名的大数据软件企业 C 公司和 H 公司宣布合并,而另一大数据独角兽 M 公司被收购,标志着大数据商业软件时代的结束,也预示着大数据的另一个未来。
大数据的未来在哪里?
在过去的十几年,硬件的性能,尤其是网络性能一直是大数据应用的瓶颈, 天才的架构师们自然想到了集群化大数据系统架构。
分布式集群集中部署
单服务器提供的算力有限,使用大规模的服务器组成分布式集群,成千上万个普通 CPU 并行计算突破了单服务器算力极限。
数据分散存储在物理机每个硬盘上
每台服务器挂载几个至十几个普通硬盘,使用多台服务器搭载搭建了分布式存储系统,有效解决超大规模数据存储问题。
数据本地化
数据处理任务从远程物理机读取数据开销大。以数据为“中心”,将数据处理任务迁移到数据所在的物理机上,能有效降低网络带宽,保证了整体性能。
这就是存算一体的大数据技术架构。经过十多年的发展,网络性能已经提升了 100 倍,内存容量也提升了数十倍。大数据处理的瓶颈逐渐从网络转移到 CPU 上,上述存算一体架构的缺点也逐渐突显出来:
刚性扩容,资源浪费
不同场景需要的存储空间和算力配比是不一样的。实际使用中要么计算资源达到瓶颈,要么是存储容量不足,只能对集群进行刚性扩容,造成集群资源浪费。
资源无法弹性
不同场景,不同时期需要的算力是不固定的,存在波峰和波谷。物理机中存储数据造成无法大规模关闭闲置节点,造成算力闲置和能源浪费。
数据孤岛
随着企业数据多种数据格式并存,且存储在不同的系统中,容易形成数据孤岛;同时,数据之间互相访问转换成本高,制约了数据价值的进一步挖掘。
作业拥塞
随着数据采集技术和网络技术发展,企业拥有 EB 级数据已经成为常态,而单次大数据分析作业就需要读取数百 TB 乃至 PB 级的数据,多任务并发下,极易出现作业拥塞,影响企业正常运作。
华为预测,到 2025 年,全球年新增数据存储量为 180ZB,企业的数据利用率会达到 86%。如此巨大的数据如何高效地分析其中的价值?显然,现有的大数据架构已经无法满足未来的需求,那么,大数据的未来在哪里?
本文转载自 华为云产品与解决方案 公众号。
原文链接:https://mp.weixin.qq.com/s/YZzoYbpTHVUnoqPFGSVVhA
评论