打造视觉智能引擎，AI识货赋能商品数字化 | StartDT AI Lab _AI&大模型_阿北@奇点云

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

自零售领域近些年围绕转型升级建设性地提出了以“人、货、场”三核心为基础的新零售蓝图之后，各方新技术蜂拥在零售的各型场景中角力。在之前的分享中，我们主要介绍了如何通过人工智能技术，从“人”的维度切入零售场景的。而本文将着重介绍我们（奇点云）自研的人工智能技术是如何从“货”的维度赋能零售商业的。

视觉智能引擎作为 AI 落地的第一步，在商品数字化方面发挥着主要作用。而从视觉角度来说，“货”的形态差异相较于“人”来说有了显著增加。不同的垂直行业为顺应市场需求所开发的产品，无论在产品功能还是形态上都千差万别，甚至同类型产品也会产生出不同的形态以顺应差异化的细分需求。这对视觉智能引擎提出了新的挑战，也激发出了 StartDT AI Lab（注，「StartDT AI Lab 」栏目致力于展现奇点云在算法技术上的突破，分享算法研发成果在商业场景的应用能力，专注于“AI+大数据”领域。）更大的技术突破。

下面从已经商业落地的场景中选了几个比较有代表性的行业场景来展示 StartDT AI Lab 已取得的技术突破。

AI 识货赋能服饰行业

我们在 17 年率先推出服装识别技术，结合产品——奇点魔镜实现落地。在这个场景中，用户站在奇点魔镜前站定几秒后，奇点魔镜首先将对用户的穿着进行分割理解，从中分离出 T 恤、风衣、夹克、牛仔裤等各种类型的服饰，然后通过对单品服饰的分析，例如 T 恤，我们可以对其抽取特征，分析出 T 恤的风格、袖长、版型等属性，最后在我们自建的百万级服饰商品库中，使用推荐算法为用户推荐相似的、配套的商品，从而达到引流客户、智能导购的效果。

在这个链路中，我们当时碰到的主要问题和解决方案:

1.获取用户准确的衣着信息并获取特征时，像 T 恤、短裤这样上下装明显的衣着较容易获取，但像连衣裙、风衣类较长的衣着却较难处理。我们通过收集大量数据、清洗打标、完善数据集，并使用级连方法，先对服饰一级标签进行检测分析，再进行二次处理，从而提高了分割效果。
2.服饰属性多样且没有统一的标准，如何快速同时判断成为难题。我们将属性的分类器各自独立互不影响，使用特征作为输入，减少了重复运算，另外我们将分类器同时接在 Graph 中，使整体过程 End-to-End，快速有效。
3.大规模检索：当数据库较大时，检索速度慢，无法快速响应。我们将比对数据库部署在分布式集群上，实现了特征比对层面的 map-reduce，使我们在应对各种级别的比对时游刃有余。

AI 识货赋能快消饮品行业

我们在快消饮品行业已有近两年的探索历史。各式各样的饮品——包括矿泉水、碳酸饮料、果汁、啤酒、白酒等都可以在奇点魔柜中售卖。我们通过自研的深度学习算法、数据采样方法，配合我们定制化的硬件配置，实现了在商用场景中 99%以上的识别准确率。我们将货损率控制在 1%以内，低于快消饮品行业平均货损水平。此外，我们在不到 1 平米的占地空间上实现了极高的坪占比，单柜单月零售额可达千元级别，却仅需少量的维护工作。

在正式商用的背后，StartDT AI Lab 主要的 contribution 有以下几点：

No.1 快速有效的小物体检测算法

和大多数场景不同，我们的检测目标往往是最小边接近 16 像素的小目标，且在一张图上有相当多的目标。我们通过自适应 anchor 的方法，使先验 anchor 更加准确；此外我们通过一种特征增强算法，使细节特征得以在深度网络中尽可能减少损失，从而避免了因特征过少带来的低分值检测结果不稳定的问题。此外我们还自研了一种自蒸馏方法，在不增加参数的情况下提升了模型准确率，从而达到了商用水准。

No.2 与度量学习结合的识别技术

度量学习在过去的几年中被广泛使用在人脸识别模型上，并取得了非常不错的效果。我们将其引入商品识别，结合经典的神经网络方法，使识别结果更加准确可靠；此外模型还可输出可比对特征，支持特征比对方式出结果，支持不同类间相似比较，从而在选品层面就避免了相似商品同时售卖无法识别的问题。

No.3 小数据集增强

我们的数据集相对使用场景，其实是一个小数据集。如何使用小数据集在大数据场景下获得商用级准确度？我们自研了一种 mix 方法，使检测模型获得了非常高的召回率；此外我们还使用了 GAN，在训练分类器的过程中同时训练生成器，再拿生成结果同时训练分类器，使分类器训练更充分，更平滑。

在生鲜/药品等垂直领域，我们也敢于摸索和尝试，发挥自有深度学习算法和采样方法的优势，结合自研的硬件优点，首创能将繁复多类的生鲜不受类别影响的智能货柜。众所周知，在垂直领域中，同一 sku 的外观变化多样，适配成本高。我们通过特定产品设计，完美支持各类蔬菜水果等生鲜，准确率更是可以做到近乎 100%。让顾客不受限于菜市场/药房等特殊场地的限制同时，更可以发挥无人货柜的完美优势——不受时间限制。

StartDT AI Lab 在黑暗中探索的收获与创新：

No.1 新颖的深度学习式场景思考

为了摆脱生鲜场景下，各种形状和尺寸带来的异同和难以兼容，以及客户快速上新的切实需求，我们在场景落地的实际道路上，结合商品的特性、产品的优势和深度学习算法的原理，给奇形怪状的生鲜产品进行特殊的包装，该方案解决了生鲜产品之间的差异性，并能支持客户快速上新。

No.2 独具创新特色的数据增广

光有新颖的方案设计还不足以让深度学习在一个实际场景中完美落地，准确率是客户第一要素，数据是深度学习的资本。StartDT AI Lab 在深入分析了生鲜和药品等垂直领域的数据特性和算法性能之后，创新性地在采样数据集上进行数据增广，让准确率近乎完美，诠释了什么是将深度学习进行落地的概念。

从以上案例中，呈现了 StartDT AI Lab 在“货”的数字化探索，虽然还是比较初步的商品数字化阶段，但也通过 AI 技术首次实现了商品售卖周期内的全链路数字化跟踪，并在此基础上实现了零售前端成本削减，提高了用户调研自动化的效率。

发布

暂无评论

创作场景

打造视觉智能引擎，AI 识货赋能商品数字化 | StartDT AI Lab

AI 识货赋能服饰行业

AI 识货赋能快消饮品行业

评论

7 款用于训练 AI 模型的合成数据工具

科技企业正成为外交名片

重磅更新！Sermant 1.2.0 release版本新特性速览

终身学习支持非结构化场景 | KubeEdge-Ianvs v0.2 发布

堪比文件传输助手！解决文本、图片、视频、音乐跨设备同步难题！

「燃情大促，年终钜惠」，家人们这一波可以冲！

AI PC的时代，英特尔和联想、爱奇艺是怎样玩转AI的？

PDF编辑器：Acrobat Pro DC 2023 「Mac」

荣耀推送服务 - 发送下行消息能力指导

如何使用 NFTScan NFT API 在 Ethereum 网络上开发 Web3 应用

服务器大揭秘：美国服务器为何成为热门选项?

VMware Workstation 17安装教程之设置系统模式

大模型 | 今天聊聊大语言模型幻觉(AI Hallucinations)

混沌工程稳态假说

稳定扩散的高分辨率图像合成

Java应用程序性能开发工具：JProfiler 14 「Mac」附注册码

利用Docker容器化构建可移植的分布式应用程序

知识图谱与大模型相结合的3种方法，1+1>2

混沌工程GameDay

购买小间距LED显示屏需要考虑8个方面

知识图谱与大模型结合方法概述

AI 革命：最佳 txt 转纹理工具

创作场景

打造视觉智能引擎，AI 识货赋能商品数字化 | StartDT AI Lab

AI 识货赋能服饰行业

AI 识货赋能快消饮品行业

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载