有一个说法:一切不谈具体场景的大数据分析都是耍流氓。还有一种说法:一切不以预测为目的的大数据分析都是耍流氓。
要知道,我们在日常生活中所接触到的大数据,和石油石化行业中所使用的大数据,有着极大的不同。如果我们直接提供日常生活服务的大数据概念套用在石油石化行业,那可就大错特错了!
具体来说,这二者之间产生大数据的主体截然不同。百度、阿里这些互联网公司研究的大数据,主要是由人类活动产生。而石油石化行业的大数据,主要是要依靠各类传感器产生。
二者背后机理也不同。人类行为主要受到人类心理活动的驱使;而石油石化行业所研究的问题,背后是物理和化学规律。
曾经硅谷有一些科技企业,跑到 Houston 的大石油公司去游说:“把你所有的数据都给我,我来给你做大数据分析,帮助你进行勘探开发和实际生产规划的决策。”但是这个想法距离石油公司的实际应用还有很大的距离。
因为硅谷科技企业进行的大数据分析的方式并不适用于石油行业。油田决策这种动辄千万美元的事情,真正拍板的肯定还是资深工程师。要想证明现在数据分析的算法能够准确的帮助决策,还需要从实际的小项目入手,一步步地让石油行业从业者信服。
石油石化行业的物理原理非常复杂,各种情况又千变万化,想让大数据在石油业应用,离不开的技术是神经网络(Neural Network)和深度学习(Deep Learning)。简单说起来,就是试图让机器拥有人类的思维方式,达到人工智能(AI)的水平。
但是,这期间还有很长的路要走,难度相当大。因为模型和算法都需要大量的训练才能够达到理想的效果。
对此,杭州才云科技有限公司 CEO 张鑫从传统行业在 IT 升级、互联网+的过程中面临层层考验入手,指出石油石化行业 IT 业务亟待升级、数据亟待挖掘,其利用新技术“降本增效”迫在眉睫。而才云(Caicloud)基于容器技术打造的智能企业云平台,给予了石油石化行业落地效果——平台层面,将节省大量的物理资源,10 倍+的提升开发速度,减少运维时间,同时提高安全性。
张鑫的这一分享,在 3 月 24 日由中国石油学会石油科技装备专业委员会主办的 2017 石油石化企业云计算和大数据技术应用研讨会上,引起多家企业和友商的共鸣。
才云(Caicloud)CEO 张鑫在研讨会上演讲
众所周知,谷歌深度学习框架 TensorFlow 自 2015 年 11 月开源以来受到了学术界和工业界的广泛关注。虽然在众多大型 IT 公司已得到了广泛的使用,但在广大的中小型 IT 企业以及传统企业中,要将其应用于生产环境却仍然存在挑战。
在单机环境下,即使使用目前最先进的 GPU 都无法满足训练大型深度学习模型的计算量要求。而在集群环境下, TensorFlow 存在高门槛、难配置、难管理等问题。分布式 TensorFlow 也不支持多用户管理,在多用户同时使用时存在资源和权限分配等问题。
才云基于不同应用场景,针对性地进行数据分析和模型训练,把大数据融入到石化行业的深层次业务中。通过 TaaS 平台,Caicloud 大数据解决方案可以更有效地利用海量数据,从而更多地挖掘数据中的价值。在一些实际问题中,通过 TaaS 平台训练得到的模型可以成功地将正确率提升 80%。
决定深度学习成效的三要素为数据、算法和平台,在才云的 TaaS 服务中,算法基于谷歌深度学习框架 TensorFlow ,而平台则是才云自己的容器集群,只要企业能够收集到足够的数据来对算法模型进行校正,才云的 TaaS 平台就能够不断提升精度。
张鑫表示,目前单家企业的算法模型需要一个月到数个月不等的时间进行校准,而从计算的加速比来看,采用了跨主机分布式计算的才云 TaaS 平台能够发挥高于 TensorFlow 本身超过百倍的加速比,而这也是为什么才云有底气能让石油石化行业拥有 10 倍+的开发速率。
本文转载自才云 Caicloud 公众号。
原文链接:https://mp.weixin.qq.com/s/S45lAG76m2XAq0PrMTzRmA
评论