伴随着移动互联网浪潮的发展崛起,国产手游巧妙的避开了长期被日、韩、欧美等国家占领的 PC 游戏市场,快速打造了基于移动智能设备的全新手游体验,在全球市场上取得突破性进展,并且形成了自己的影响力。
然而在这一过程中,随着越来越多的国内游戏产品开始走向全球,参与引领行业发展,其对于后台技术的发展也提出了越来越高的要求。其中,运维技术作为任意款游戏产品运行发展的强有力支撑单元,正面临着全新的挑战。
作为国内游戏行业市场占有率最高的企业,腾讯游戏业务长期占据国内市场总份额 50%以上,稳居行业第一,腾讯游戏运维业务的发展更是可以进一步看作是整个行业发展的缩影。
在由 InfoQ 主办的 2020 QCon (上海)全球软件开发大会期间,InfoQ 记者特别采访了腾讯游戏运维总监涂彦先生,就腾讯游戏运维技术发展演进过程是怎样的、新时期的 AIOps 运维技术实践具有哪些经验等方面话题进行了交流。
以下为 Q/A 内容整理(有删减),供行业人士参考。
从手工操作到智能运维
InfoQ:从事游戏运维近 15 年,过程中哪些运维技术、理念的出现让你印象深刻?腾讯游戏在运维方面是如何参与这些变化的?
涂彦:单纯从国内游戏运维领域技术发展演进的角度来看,在经历了早期的纯手工化运维,再到后来的基于 Command 窗口命令行、Linux 脚本批量化管理等发展阶段后,如今游戏行业运维技术的发展已经从脚本过渡到一个工具化、产品化的阶段,并正呈现出向智能化过渡的趋势。
以腾讯为例,从 2012 年开始,腾讯游戏内部便把运维脚本语言统一升级为 Python,实现了整个游戏的日常运维工作全面标准化与自动化升级。现在我们只需要使用蓝鲸这一个平台工具,就可以实现腾讯游戏旗下几百个业务的自动化运维管理。
与此同时,伴随着运维工作的自动化持续建设,腾讯游戏内部的服务器数量多达数十万台,游戏业务对于数据服务的使用也越来越多。
在服务器数量达到了一定规模的量级之后,每台服务器的生命周期、硬件故障、以及服务器内部结构等数据信息都存在差异,如何对这些数据进行科学合理的管理以及资源分配成为了新的挑战。与此同时,不同游戏玩家在体验方面对于高效实时性能等方面的要求,同样对腾讯游戏的运维工作提出了新的挑战。
智能化运维(AIOps)工作的开展,成为了腾讯游戏运维真实业务开展过程中不得不去思考的一个问题。与之相对应的,我们在人员甄选方面,也出现了更多运维开发、数据开发这样的新能力,强调新进入的人员在懂运维技术的同时,还要懂开发技术或智能化技术。
InfoQ:你是怎么理解 AIOps 的?能否通过一个例子形象直观的展开介绍?
涂彦:以目前最火爆的生存类游戏为例,当大量的玩家进入游戏场景的时候,其实对于游戏策划人员来说,他们需要去了解这张地图设计的是否合理?是否存在值得改进的地方,于是就需要通过很多的数据去分析。
在传统工作模式中,对于这些数据分析,是离线以及单维度的,策划团队很难立体去看玩家在游戏中的实际表现。而如果可以立体、实时、多维去看这些,将给策划及运营团队带来更好的感知,从而可以更加高效率的优化好玩家的游戏体验。
目前我们通过 AIOps 的方式,就已经能够实现通过热力地图,真实的记录下单位时间内地图上的击中分布、比率等情况,第一时间知道哪一个区域的玩家失败率最高,并通过分析得出改进建议。
我们就多次的帮助游戏策划人员发现设计上需要优化的一些问题,比如某一大型游戏在一次版本更新之后,一处地图的角落里,玩家跳上箱子之后被击中的次数有严重的聚集,与设计案有一定的出入,后来发现是这个地方的关卡设计其实是需要做出调整的。
运维与业务运营、策划正走向融合
InfoQ:在你们看来,游戏运维是跟运营、策划等合在一起的?
涂彦:对的,在我们看来,传统的 AIOps 主要是用于解决软硬件相关、发现故障等问题的,但是对于我们而言,我们会更倾向于怎么样去帮业务解决实际问题,它其实还是有一个很大的提升的。通过上面的例子可以看到,其实我们的运维业务已经跟业务相关的游戏设计、策划等关联起来了,这已经区别于传统的运维模式了。
在以往的运维过程中,我们在帮助业务去解决问题的时候发现,包括一些断线重连,游戏卡顿等问题,其实它已经不再是简单的通过一维或二维数据就可以快速得到答案的,现在游戏产品的后台运维其实需要收集更加多维、海量的数据。
在这样的情况下,智能运维要做的事情其实相当于是我们把运营规划的事,从需求到最终的落地,并且把运维、开发以及运营这些事情都合在一起来做了。
InfoQ:运营与智能运维的结合,这个概念只有腾讯一家在提吗?还是其他的同行也认同这个趋势?
涂彦:这几年我们在行业里的交流其实也有不少,整体上还是觉得行业里做得更多的是偏向于硬件和网络相关的。比如说做硬件故障维护、磁盘替换、网络告警。但是也有越来越多的企业开始做业务预警相关的工作,相当于说这里面有一部分智能运维的工作是去做预测的,这一块其实目前像百度、阿里等运维团队也都有在做。
运维部门不是利润中心, 而是成本中心
InfoQ:作为这一次 QCon 大会《弹性工程与运维》专题的出品人,你参与组织这一专题的目的是什么?
涂彦:目前看来,整个云计算的发展,对运维行业也带来了很大的转型挑战。在高并发的场景下,如何做好弹性调度以提升业务的资源利用率,这是我们专题重点关注的方向,希望能给大家解决复杂的业务问题提供有效地帮助和启发。
游戏业务对于后端服务器的要求非常高,特别是网络游戏,有大量的计算都是通过后端完成的,所以,在每一款游戏的背后,都有大量的服务器资源基于 GPU、CPU 去进行运算。伴随着云计算背景下云游戏等概念的出现,用户对于云端游戏的呼声越来越大,这无形之间对新的游戏运维提出了很高的挑战。
对于云时代产生的云游戏而言,由于需要达到的效果是将大量的内容存储、图像渲染等放置到云端,终端只起到一个交互的作用,这导致的结果是,云游戏在用户的终端设备性能很低的情况下也能产生一个很好的效果,但是对于后端的服务器的要求却变得更高了。这相当于是将终端设备性能提升的问题转移到了后端服务器里面,于是与之相对应的是,后端的开发、运维人员将要面临的问题也就更多,成本压力也越来越大。
运维部门作为企业的成本部门,在保障业务运行的情况下,更多的还是需要去考虑如何更好的与业务结合,产生更多的增值服务。以及思考如何通过基于云的弹性伸缩方式实现运维成本的优化?这是我们这次专题里重点讨论的一个话题。
会议推荐
2021 年 4 月 22-24 日QCon全球软件开发大会(北京站)再次恢复为 3 天时间,会议规模在 2000 人左右,无论是嘉宾专业性还是话题关注度都会更强、更高。 12 个技术专题,73 位演讲嘉宾,大会内容持续上新中,欢迎 IT 行业内伙伴保持关注并积极参与。直达官网查看大会详情。
评论