闲鱼如何处理UI2CODE复杂背景识别_语言 & 开发_仝辉_InfoQ精选文章

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

登录/注册

闲鱼如何处理UI2CODE复杂背景识别

引言

复杂背景内容提取指的是从复杂的背景中提取出特定的内容，例如在图片中提取特定的文字，在图片中提取特定的叠加图层等等。

这是一个业界难题，基于传统的图像处理的方法存在准确率和召回率的问题，没法解决语义的问题。而主流的机器学习的方法，例如目标检测无法获取像素级别的位置信息，而语义分割的方法则只能提取像素而无法获取半透明叠加前的像素信息。

本文考虑到这些痛点，从 UI2CODE 业务的业务场景出发，采用了目标检测网络来实现内容召回，GAN 网络实现复杂背景中特定前景内容的提取和复原。

处理流程

复杂背景的处理流程分为如下几个步骤

内容召回：通过目标检测网络召回元素，即元素是否需要做背景提取操作。
区域判断：根据梯度等视觉方法判断所处区域是否是复杂区域。
简单区域：基于梯度的方式找到背景区块。
复杂区域：采用 SRGAN 网络进行内容提取。

内容召回

内容找回我们采用目标检测网络来实现，例如 faster-tcnn 或 mark-rcnn 等。如下图所示

区域判断

根据拉普拉斯算子计算周边梯度，判断所处区域是否是复杂区域。

简单背景

游戏目标检测模型本身等局限性，会导致无法达到限速级别等精准性，因此需要对位置做修正。如果是简单背景就可以基于梯度对思想做位置修正，具体计算方式如下

复杂背景

复杂背景时，上图是原图，下图是提取的文字区块。

此时提取出的框不是完全正确，那么此时根据梯度等机器视觉算法已经不能对位置做正确的修正了。本文提出了基于 GAN 网络的方式来解决复杂背景内容提取问题，网络的主要结构如下图所示

为什么选择 GAN 网络？

基于 srGAN 网络，该网络加入了特征图的损失函数，这样可以很好保留高频信息，能更好的保留边缘。特征图的损失函数如下图所示

由于有对抗损失的存在，可以很好的降低误检率。
最重要的一点是在有透明度的场景下，语义分割网络只能“提取”元素，无法“还原”元素。而 GAN 网络不仅可以在提取元素的同时还原出未叠加时的像素情况。

网络训练流程图

针对业务场景针对 GAN 网络做的优化

由于我们不是超分辨率场景，因此不用 pixelShuffler 模块做上采样
由于场景比较复杂，可以引入 denseNet 和加深网络来提高准确率。
内容损失函数对于压制误判的噪点效果不理想，因此加大了误判的惩罚，具体如下图所示

结果图 1

结果图 2

结束语

本篇我们通过复杂背景内容提取的介绍，提出了一种机器学习为主，图像处理为辅去精确获取特定前景内容的方法，得到了高精确率、高召回率和高定位精度的识别结果。

下图分别是传统算法 grabcut，语义分割方法 deeplab 和本文方法的各个指标的情况。

本文转载自公众号闲鱼技术（ID：XYtech_Alibaba）。

原文链接：

https://mp.weixin.qq.com/s/jDIGduId6el1LG5dE9YOMQ

评论

发布

暂无评论

HarmonyOS实现表单页面的输入，必填校验和提交

HarmonyOS开发者

容联云获评“2023最值得关注的AIGC公司”

容联云与石景山区政府签约，打造大模型产业集聚区

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

Copyright © 2024, Geekbang Technology Ltd. All rights reserved. 极客邦控股（北京）有限公司 | 京 ICP 备 16027448 号 - 5

京公网安备

京公网安备 11010502039052号 | 产品资质