详解阿里99大促活动页内容识别技术实现-InfoQ



 写点什么

引言

99 大促有淘宝、天猫、聚划算等全员参与，上千个页面形式的展现。其中，测试是保障活动页面的正常发布的一个必不可少的关键环节。传统的测试方法，需要测试人员去分析这个页面是否正常生成，以及是否实现正常地跳转等。这样通常会占用大量的测试资源。那么能否利用机器学习等相关技术为测试赋能呢？

带着这个问题，我们分析了页面的特性。经过分析后发现页面具有高度的相似性，很多模块是复用的。因此，可以利用机器学习去学习模块特征，进而达到识别这些模块的目的。最终，我们实现了对淘宝 99 大促几十个活动页模块的自动识别。

处理流程

深度学习技术通常由两部分构成：模型训练和模型预测。

深度学习通常是有监督学习的方式，因此在模型训练环节中，需要输入训练样本，“告知”它输入和输出是什么。此外，我们还需要选择合适的深度学习网络来训练。相关细节会在后续两个小节中详细描述：

样本生成：样本生成过程中使用的三种方法模型选择：fpn + Cascade R-CNN

复制代码

在模型预测环节，由于页面内容理解部分不止需要识别模块，还需要识别模块内部的元素。此外，受限于目标检测模型本身的局限性，会导致识别出来的位置没法达到像素级别的精确性，因此需要对位置做修正。为了近一步提高准确度，本文引入了位置修正模块。因此，本文的模型预测分为如下三个部分做介绍：

模块识别：识别页面中模块类别和位置元素识别：基于模块的识别区域，识别内部元素位置修正：通过传统图像的方式修正内部元素位置

复制代码

模型预测

样本制造

样本制造我们演进了三个版本：

第一个版本是手动打标，基于 labelImg 等标注工具进行标注。这种打标方式的缺点是需要投入较多的人力资源，且无法满足未上线页面的打标。

第二个版本是模型辅助打标，也就是先训练一个初始可用的模型，然后利用模型预测结果对模型进行初始标注，对不正确的地方作修改，可以不断地迭代优化模型。这种打标方式的缺点是无法满足未上线页面的打标。

第三个版本是自动打标，分析 H5 页面的代码生成布局 DSL，然后通过替换属性的方式自动生成相关代码。这种打标方式的优点是可以解决上述两个版本中“无法满足未上线页面打标”的问题。这种方法也是本文中采用的主要方法。

本文，主要使用了第三种方式去生成训练数据，第一种和第二种更加真实的方式生成验证数据，达到生产环境准确验证的目的。

模型选择

淘宝 99 大促活动页需要识别活动页里面有哪些页面模块，且需要知道模块所在的位置。而深度学习的目标检测模型可以在给定的图片中精确找到物体所在位置，并标注出物体的类别。

考虑到对坐标位置和类别有很高的召回率和准确率的要求（IOU0.5:0.95 的召回率和准确率都要达到 95%以上），本文使用了精度更高的 Cascade-RCNN 网络。

主流的目标检测模型 Faster-RCNN 的缺点是 RPN 的 proposals 大部分质量不高，IOU 低阈值会导致很多误检出，而高阈值会导致召回率过低。针对这个问题，Cascade-RCNN 使用 cascade 回归作为一种重采样的机制，逐层提高 proposal 的 IoU 值，从而使得前一层重新采样过的 proposals 能够适应下一层的更高阈值。这样做的好处是：每个阶段都有不同的 IoU 阈值，可以更好地去除离群点，适应新的 proposal 分布。

针对识别模块大小不一这种情况，我们在卷积特征提取网络加入了特征金字塔结构，均衡了不同尺度模块的检出数量（对小模块提升尤为明显），进而提高了召回率和准确率。网络结构如下图所示：