产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定

  • 2020-03-10
  • 本文字数:3147 字

    阅读完需:约 10 分钟

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定

对于大麦这种客户众多,抢票舆情极易爆发的业务,如何保障好线上质量是极大的考验。大麦针对产品的线上问题分两个阶段进行了专项攻坚,拿到理想效果的同时沉淀出一整套解决方案及技术工具,其中核心技术产品钉钉机器人“麦粒儿”被阿里多个 BU 接入使用以应对线上问题。本文分两个阶段来阐述治理的结果、过程及沉淀。

一、第一阶段:提升线上问题的解决效率

  1. 业务属性决定大麦要快速处理线上问题


背景:大麦的业务,售卖的是稀缺资源,而面对的客户除了普通的消费者,还有主办方、场馆方和政府公安文化等,这样的业务属性,决定了我们对线上质量的高要求,线上问题的解决效率是我们的第一指标。随着大麦内部一批大型新系统的陆续上线,线上质量的压力越来越大,随即由技术质量牵头对线上问题展开专项攻坚,力保线上质量。


目标:通过专项治理,大幅提升线上问题的解决效率。我们对标了阿里内部各个业务的标准,制定了大麦的核心指标为线上问题的 1 小时解决率。


价值:所有影响用户和业务的紧急问题在第一时间内得到解决;打通公司内各个部门,过程结果透明,所有角色信息对等,对质量放心;所有同学对线上生产有敬畏之心,视线上质量为生命线。


  1. 经过各部门的通力合作和技术攻坚使核心目标达成


  • 紧急问题的 1 小时解决率大幅增长。



  • 问题逐步收敛,解决时长大幅缩短。



  • 机器人全流程承接,全角色参与,进度结果全透明。


  1. 通过建立工具化支撑的处理机制来实现目标


1)面对复杂的线上问题和众多的干系人,我们首先想到的是把问题分级,使那些真正紧急的问题暴露出来,并建立问题的全流程处理机制来标准化运行,如下图:



2)有了处理机制,还需要有工具来承接使之高效运行,我们开发了虚拟机器人依托钉钉群进行问题的收录和沟通,并打通了研发工作平台、邮件系统、故障系统等使问题的快速处理形成闭环,具体功能有:


  • 支持上报问题→问题进展同步→日报、周报→复盘提醒→升级故障,形成闭环。

  • 通晒紧急问题的核心指标,促进问题快速解决,实现核心目标达成。

  • 日常应答,方便主动跟进问题进展,对未关闭的紧急问题直接 @接口人处理。



3)影响问题处理效率的核心是问题的定位。在治理过程中,技术团队建立并完善了各自业务线的核心系统监控预警系统,使问题第一时间被发现。同时我们还开发了众多的排查工具并打通全链路排查系统,结合舆情系统的精准信息反馈,使问题可以被快速定位。

二、第二阶段:提升大麦的线上质量水平

  1. 重点从问题的解决效率转向问题的收敛


背景:经过第一阶段的治理,线上问题的解决效率已经得到了大幅的提升。但线上质量永远是我们的生命线,真正影响用户体验的是我们的线上质量,我们随即将目标对准提升线上质量本身,力图实现收敛线上问题。


目标:将大麦的线上质量水平大幅提升。核心指标分解为:


  • 收敛整体线上问题,腰斩 TOP 问题,控制紧急问题的二次发生率。

  • 全面提效,完善机器人建设,全流程自动化承接,减少人力成本。


价值:形成一整套专业的线上问题解决方案并有配套工具支撑,阿里集团横向打通;将线上稳定视为生命线,在公司树立稳定压倒一切的共识。


  1. 经过各部门同学们的通力合作,核心目标全部达成。


  • 线上质量大幅提升,紧急问题断崖式下降。



  • 整体问题平均解决时长大幅缩短。



  • TOP3 问题被腰斩,紧急问题二次发生率不到 1%!

  • 机器人产品化基本完成,支撑业务线自运营,节省人力成本超一倍。“麦粒儿”支撑集团多个 BU 进行线上问题处理。



  1. 为了达成核心指标,专项小组主要从专项根解 TOP 问题、完善机器人产品化、止血手册和排查宝典建设三方面出发展开工作,具体事项如下:


1)对 TOP 问题进行专项治理,分级 action 根解严重问题。


  • 针对链路问题,成立专项小组进行治理。


我们对历史问题进行了梳理和总结,在多个核心环节进行了多项产品及技术优化,并补齐 SOP 减少人为操作失误,最终使产技问题清零,生产问题腰斩。


  • 制定完善的 action 分级机制并应用于紧急问题中实现问题根解。


为准确找到根解方案、保障 action 及时完结,我们制定了复盘会议规范、action 分类制度和 action 分级处理规则并推动落地,紧急 action 的周清率达到 100%。最终使紧急问题二次发生率不到 1%,超过之前预定目标。


2)完善机器人功能并进行产品化,开始推广至外部 BU。


在一期功能的基础上,机器人二期重点建设了排查止血指引、故障平台打通、各类功能优化等,补齐了全流程闭环并全面提效,完成了创新的自动化承接的线上问题管理方案,主要包含:


  • 处理闭环:问题上报(含止血、排查方案)–>处理通知–>问题解决、关闭通知(含解决时长同步及核心指标对焦)–>获取问题原因、解决方案–>复盘提醒。

  • 升级流程:问题上报–>问题升级(故障标准)–>对接 GOC。

  • 信息同步:支持自动发布线上问题的日报、周报等。



机器人建设里程碑



随着功能闭环的完成,开始进行产品化开发,同时完成多个专利申请;可快速配置个性化机器人,实现分钟级接入全部功能;BU 内部众多问题群接入机器人,整体满意度超 95%;集团多个外部 BU 也进行了机器人的接入工作,小小机器人开始横向打通支撑集团的线上问题处理。


3)完成排查宝典和止血手册建设,指导止血操作并快速定位问题。


  • 止血手册建设:


背景:当发生线上问题或故障时,根据阿里安全生产规范,我们首先要做的不是排查问题,也不是解决问题,而是应该立即进行止血操作。争取在最短的时间里,最大程度的降低问题的影响范围。之前在面对线上问题时,大家的止血操作效率低且容易被忽视,专项小组决定产出一份止血手册,指导大家进行止血操作,提高问题解决效率。


工作:我们从实际线上问题出发,借鉴真实线上问题止血的实操经验,对问题进行归类整理,创建了经典场景的止血手册,涵盖了全部的紧急问题,并与机器人结合自动指导大家进行止血操作。


  • 排查宝典建设:


背景:专项小组在 TOPIC 一期以解决时长为衡量标准,推动各个业务线建设核心排查工具,从而提高了问题的排查效率。但是随着排查工具的种类和功能的不断增加,工具的操作使用说明没有及时跟进,导致非该业务线的同学在查询使用上存在困难;其次,当遇到需要排查上下游业务的线上问题时,因为不了解其他业务的排查思路和方法,只能等待其他对应业务的同学给出排查结果,导致问题排查效率低。


工作:若想拥有方便、高效的定位问题的方法,不仅在于有好用的排查工具,还在于有清晰的排查思路。我们从实际线上问题排查定位的实际经验出发,收集建设各个核心系统的排查思路和配套工具,形成了核心业务的主要链路场景的排查宝典,包含问题描述、排查思路、详细步骤、参考案例。并与机器人结合自动指导大家进行问题定位。


  • 止血手册和排查宝典的整体结果


止血手册结合排查宝典,使大麦整体的线上问题解决时长持续降低。


4)制定线上问题处理流程规范,助力高效自运营。


  • 为了解放人力,使线上问题的管理实现自动化的高效运营,专项小组在不断完善机器人建设的同时,还出台了《大麦线上问题处理流程规范》,并依据规范进行周、月维度度量,逐步使线上问题的管理下放到业务线自运营。

  • 整体处理流程规范包含处理流程、aone 操作规范、定级规范、复盘规范、action 规范、故障标准、罚则标准等。

  • 结合机器人在群问题管理方面的人力成本降低,整体人力成本节省超一倍。

三、总结

随着两个阶段的建设,大麦线上问题的处理效率和线上质量水平均得到大幅提升。但线上质量永远是我们的生命线,稳定压倒一切!未来我们还将继续建设第三阶段,致力于提升自动化和智能化水平,并把整体的线上问题管理方案体系化推广出去。分解为:


  • 继续推进机器人建设,打通全链路日志系统实现问题的智能诊断,并结合止血手册和排查宝典建设,实现问题自动应答。

  • 继续为新系统稳定保驾护航,专项推进线上 TOP 问题根解,杜绝二次发生。

  • 完善整体的线上问题管理方案,支持更多阿里 BU 使用,为线上问题的专项解决提供更好的支撑。


作者简介


阿里文娱测试开发专家 烈冰


2020-03-10 11:002482

评论 1 条评论

发布
用户头像
2020-03-10 15:08
回复
没有更多了
发现更多内容

MySQL 到 ClickHouse 的高速公路

青云技术社区

MySQL 数据库 Clickhouse

【LeetCode】子数组异或查询Java题解

Albert

算法 LeetCode 5月日更

微软为什么要对jdk下手?阿里对JDK的理解又是什么样的?

Java架构师迁哥

技术笔记(语音识别-语音噪声分类)

攻城先森

噪声 5月日更 技术笔记

【图片旋转】十五分钟挑战鸿蒙Codelab组件

liuzhen007

鸿蒙 5月日更

零基础学习NLP-DAY2

Qien Z.

nlp 5月日更

你认识镜子里的那个自己吗?

小天同学

原则 认知 5月日更

网络协议之HTTP:HTTP 1.1与HTTP 2

程序员架构进阶

HTTP2.0 28天写作 HTTP协议 5月日更

Ansible AD-Hoc

耳东@Erdong

ansible 5月日更

将自媒体玩得风生水起的不一定是前总统,还有可能是艺术家

zhoo299

艺术 自媒体 5月日更

客制化:定制专属于你的产品和服务

石云升

产品 用户 职场经验 5月日更

编程思考路径2条

顿晓

5月日更 思考路径

⚓【Java知识晚餐】精心准备的JVM分析工具⚓

洛神灬殇

Java JVM 5月日更 JVM分析工具

传统BI如何转大数据数仓

数据社

大数据 BI 5月日更

GitLab Webhooks 使用

夏兮。

gitlab jenkins CI/CD WEBHOOKS

防治肥胖,AI转向

脑极体

人证一体机产品设计

lenka

5月日更

关于组件,你真的了解么?

架构精进之路

组件化 5月日更

网络攻防学习笔记 Day11

穿过生命散发芬芳

5月日更 网络攻防

再学习一个 Golang 专栏

escray

学习 极客时间 Go 语言 5月日更

华为云PB级数据库GaussDB(for Redis)揭秘第十期:GaussDB(for Redis)迁移系列(上)

华为云开发者联盟

数据仓库 华为云 数据迁移 GaussDB(for Redis) PB级数据库

由高频护网设备漏洞引发的供应链浅思

Thrash

安全

这个云原生开发的痛点你遇到了吗?

阿里巴巴中间件

学习笔记:02 | 第一个程序:教你输出彩色的文字

Nydia

学习

Windows自带的功能这么好用,还装什么第三方软件?

彭宏豪95

windows 5月日更

NumPy之:理解广播

程序那些事

Python Numpy 程序那些事

快速搭建接口自动化测试框架

夏兮。

Java JUnit 接口测试 rest-assured

Spring Cloud Alibaba 生态学习

风翱

spring cloud alibaba 5月日更

Gradle学习笔记

ES_her0

5月日更

流量变现业务概论——Linkedmall流量变现业务初步分析及系统设计概要

关贺宇

「技术人生」专题第1篇:什么是技术一号位?

阿里巴巴中间件

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定_文化 & 方法_阿里巴巴文娱技术_InfoQ精选文章