写点什么

开源 stagesepx:全自动化的 App 启动耗时测试工具

  • 2020-04-14
  • 本文字数:3594 字

    阅读完需:约 12 分钟

开源stagesepx:全自动化的App启动耗时测试工具

背景

对于端侧应用而言,启动耗时是个非常重要的性能指标:它的快慢很大程度上决定了用户第一印象的好坏,与用户的实际体验密切相关。


而正因为它的地位举足轻重,在敏捷开发逐渐成为主流的今天,我们不得不在每一轮迭代中都对它进行重复回归。而随着迭代周期逐渐缩短,发布频次逐渐增加,重复回归带来的副作用也日益沉重,让我们不得不开始思考如何进行优化。

行业现在是怎么做的

一般来说分为两个方向:


  • 以埋点插桩为代表的开发向;

  • 以视频数帧为代表的质量向;

埋点

埋点方案的应用在开发领域非常广泛,它也几乎是进行性能优化的唯一参考。以 android 为例,常见做法是在各类组件生命周期相关的回调函数中,插入部分代码(诸如日志、网络请求等)对调用行为进行标注。如此做之后,当应用进行常规的生命周期切换时,我们就能够通过这些带有时间戳的标注得到每个阶段的具体耗时。



这种做法非常细致,我们几乎能够得到任意函数级别的耗时情况,这也让我们能够在此基础上建立 benchmark 以控制后续的行为。目前大多数的全链路监控都是基于类似的方法实现的。


但,它得到的代码层面的数据,与实际用户感受到的情况是有差距的,这也是质量人员对此并不感冒的原因。

视频

原理非常直接:


  • 利用诸如摄像机之类的设备将整个应用的启动过程录制成视频

  • 对视频进行拆帧

  • 由于每一帧都有对应的时间戳,我们可以通过计算得到任意两帧之间的差值

  • 同理我们能够得到任意场景的耗时情况



这种方法与用户的实际感受基本一致,能够较好地反映真实情况,也是一般质量侧用得最多的方法。但这种方法带来的问题是,我们只能计算能够被观测到的数据,而对于不可见的(例如具体函数耗时)部分我们无从得知。

异同与优劣

目前来说,这两种方法都有相当数量的用户,在行业内并存。追根溯源,是关注点的差异导致了这两股人群的分化:


  • 开发人员更关注的是“优化”。埋点得到的信息能够帮助开发人员更好地知悉并评估代码执行过程的变化,找到优化点;

  • 质量人员更关注的是“体验”。视频得到的信息反馈了用户的真实感受,也是最终应用呈现的状态,而这正是质量人员需要牢牢把控的;


综上而言,这两者通常会结合使用,以配合得到更好的结果。

难点

埋点方案已经广泛地应用到全链路监控中,各类成熟的解决方案层出不穷,并不是一个很难解决的问题。


视频方案上,目前我们很大程度上依旧只能依赖 外置摄像机+人工数帧 的方式,这种不可编程的方式优化空间非常有限。而这种方式被大量应用到各类准入准出标准中,是一个难以避开的问题。


本篇文章将聚焦于视频方案的优化与解决。

优化点与方案

最终目的

我们希望将视频方案上消耗的人力最大限度地降低。这其中主要有两个问题:


  • 摄像机(硬件依赖)能否替换?

  • 帧计算如何自动化?

问题分析

摄像机

之所以质量侧一直不够信任软件录制,主要有两个原因:


  • 被测主体与测试工具在同一台设备上,有互相影响的可能;



  • 部分软件录制得到的视频 fps 可能是不稳定的,而这会影响 opencv 的分析结论;



对于问题 1,在过去硬件条件不够发达的情况下确实是个客观存在的问题。但近年来移动设备的硬件水平已经得到了非常大的提升,对于常规应用与机型而言,这部分的影响已经非常小。


对于问题 2,以 adb 为例,这种方式带来的误差可能是非常巨大的。因为 opencv 会默认以稳定 fps 的情况来处理你的视频:



而 adb 的录制原理是,当画面发生变化时才会将帧写入视频,这会导致整个视频的 fps 存在较大的波动。

自动化的帧计算

因为作为前提的摄像机录制目前没有很好的解决方案,所以自动计算受到了很大的限制而难以开展。目前比较常见的方式是利用目标检测来自动界定阶段:



通过判断界面上是否存在特定标志物,我们可以知悉目前流程进行到哪个阶段,并在此基础上进行扩展计算。但这种做法伴随的问题同样很多:


  • 需要额外的成本去管理标志物图片,而这种做法在 UI 频繁变换的业务中反而引入了更大的工作量;

  • 逐帧、多目标的检测带来算力的浪费,随着标志物的增加效率会继续下降;

  • 对于动态的标志物(诸如每次刷新都会改变的 icon)无从下手;

如何解决

对于 fps 不稳定的问题,有个前提是,虽然 fps 不稳定,但每一帧的时间戳是准确的。那么,我们可以利用 ffmpeg 对这些视频进行补帧,使整个视频的 fps 维持在一个固定值。经过这种方法处理之后,opencv 就能够正确地处理视频的时间。



在前提得到满足之后,我们使用 stagesepx 进行帧时间的自动计算。

stagesepx

这是什么

轻量化的、基于图像处理与机器学习的、全自动的视频分析工具。它提供了丰富的可定制性,能够根据你的实际需求分析视频并将其拆分为一系列阶段。在此之后,你可以清晰地得知视频包含了几个阶段、以及每个阶段发生了什么。而这一切都是自动完成的。


例如,这段视频展示了一个应用的完整启动过程:



将视频传递给 stagesepx,它将自动分析拆解,得到视频中所有的阶段。包括变化的过程及其耗时,以及在稳定的阶段停留的时长:



你可以据此得到每个阶段对应的精确耗时。而你几乎可以将它应用到任何端,甚至:




而它自带的 python 接口可以让开发者很轻松地二次开发,以落地到实际环境。例如,将结果转换为字典:


{  "data": [{    "data": null,    "frame_id": 1,    "stage": "0",    "timestamp": 0.0,    "video_path": "../demo.mp4"  }, {    "data": null,    "frame_id": 2,    "stage": "0",    "timestamp": 0.04,    "video_path": "../demo.mp4"  }, {    "data": null,    "frame_id": 3,    "stage": "0",    "timestamp": 0.08,    "video_path": "../demo.mp4"  }, {        ...
复制代码


从这个字典中我们可以知道,每一帧分别对应的:


  • 被分类到哪一个类别

  • 时间戳

  • 帧编号


用户可以随意处理这些数据,无论是保存或是交给下一段代码。

全自动化

上面提到的处理过程只能满足一些常规场景的需求,要想达到更好的泛用,它面对的一个最大问题是如何使自动化分析得到的结果与我们的预期匹配起来。例如:


  • 当偶现弹窗时会导致阶段数量发生改变或后移,如果直接以阶段编号进行计算的话必然是错误的;

  • 目前许多超级 app 都会具备 UI 动态化的设计,以达到更高的灵活度。这些都会影响阶段的分类:

  • 内容型 APP 每次打开首页内容都不一致

  • 插屏广告播放的内容是随机的

  • 游戏某个阶段场景是动态的(有循环播放的动画等,很多游戏的初始界面都会有)


在 0.10.0 之后,stagesepx 借助了 keras 来处理该类型问题。



基于 stagesepx 的双层结构,开发者能够使用自己提供的训练集干预分类过程,让计算机能够按照定制好的规则进行分类,以支撑后续耗时计算的准确性。



具体使用可参考 全自动化的抖音启动速度测试

性能

这套方案在没有 GPU 的情况下依旧保持了较为理想的工作效率。默认配置下,在普通的 windows 办公 PC 上,对于一个 15s 的视频而言,一次分析耗时 1 分钟左右。


stagesepx 提供了大量的可配置项(诸如分辨率压缩系数),使得用户能够自由地在颗粒度与效率之间找到最合适的平衡。比起传统方式,这种方法有能力大幅提高回归次数,从而得到一个更为客观的评估数据。

如何使用

如果你希望优化你的现有流程:

你可以直接基于上面的落地方式,以自动或人工的方式优化评估流程。

如果你在寻找最佳实践:

一般来说,这套流程会搭配链路监控同步使用。如果你的业务已经具备了链路监控能力,你可以将该套方案添加到已有流程中,将开发侧与质量侧数据汇总起来达到更为全面客观的评测效果。

相关链接

更多使用方式与具体原理请参考官方文档:



2020-04-14 16:476897

评论

发布
暂无评论
发现更多内容

12 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

云智慧AIOps社区

运维 运维监控 开源软件 运维体系 运维系统

小程序与H5适合的场景应用都有哪些

Speedoooo

ios开发 APP开发 容器安全 Andriod开发 容器应用

使用工具Source Monitor测量您Java代码的环复杂度

汪子熙

Java 软件工程 28天写作 12月日更 代码复杂度

当我们谈论“远程开发”时,我们在谈论什么

Draven Gorden

云原生 开发者工具 开发工具 远程协作 开发环境

我不用“996”,更不用“007”,可我赚的就是比你多

六十七点五

软件测试 自动化测试 接口测试 测试工程师 功能测试

Selenium之css怎么实现元素定位?

六十七点五

大前端 软件测试 自动化测试 接口测试 selenium

vCenter管理软件用什么牌子好?有哪些用处?

行云管家

虚拟化 vcenter

等保工作中常见导致测评结论为差的高风险项

行云管家

网络安全 等级保护 等保测评 等保结论

周边生态|RoP 重磅发布 0.2.0 版本: 架构全新升级,消息准确性达 100%

Apache Pulsar

Java 开源 架构 云原生 Apache Pulsar

初识JVM的内存结构

Ayue、

技术专题合集

PackML从会到不会——命令标签(4)

陈的错题集

标准化 PackML

恒源云(GPUSHARE)_分享一个技巧!CV训练时容易忽视的数据标签问题

恒源云

深度学习 算法 CV

带你了解Typescript的14个基础语法

华为云开发者联盟

typescript 数组 开发 js 语法

dart系列之:还在为编码解码而烦恼吗?用dart试试

程序那些事

flutter dart flutter 面向切面 aop 程序那些事 12月日更

Cordova插件中JavaScript代码与Java的交互细节介绍

汪子熙

Java JavaScript 移动应用 28天写作 12月日更

web技术分享| AudioContext 实现音频可视化

anyRTC开发者

Web 音视频 WebRTC 音频可视化 AudioContext

☕【并发技术系列】「多线程并发编程」技术体系和并发模型的基础探究(夯实基础)

码界西柚

Java 并发编程 多线程 多进程 12月日更

Sinfonia: a new paradigm for building scalable distributed systems--翻译理解【1】

Krysta

分布式 transaction Sinfonia DSM 两阶段提交改进

Java和ABAP中的几种引用类型的分析和比较

汪子熙

Java 引用 28天写作 abap 12月日更

模块五作业

危险游戏

架构实战营

Linux一学就会之Centos8用户管理

学神来啦

Linux centos 运维 linux云计算

基于星环科技大数据平台 辽宁城市建设职业技术学院打造智慧校园

星环科技

大数据

如何在Flutter应用程序中创建不同的渐变 【Flutter专题14】

坚果

flutter 28天写作 12月日更

短视频平台的风控系统设计

Bill Zhang

分享一个从源码快速构建应用的小工具

Draven Gorden

开发者工具 开发工具 开源项目

常用项目部署方案和区别

进击的梦清

DevOps 运维 项目 部署与维护

MySQL探秘(二):SQL语句执行过程详解

程序员历小冰

MySQL 28天写作 12月日更

恒源云(GPUSHARE)_CIFAR-10数据集实战:构建ResNet18神经网络

恒源云

深度学习 算法

一场关于元宇宙公司之死的剧本杀

白洞计划

开源stagesepx:全自动化的App启动耗时测试工具_开源_williamfzc_InfoQ精选文章