1963 年，来自 MIT 的 Larry Roberts 基于计算机视觉领域发表博士论文“Machine Perception of Three-Dimensional Solids”，至此，CV 技术作为一项新兴的人工智能开始出现在人们的视线当中。50 年后的今天，随着智能时代的来临，越来越多的人工智能已然走入人们的日常生活，为衣食住行带来意想不到的便利。

当警方多次通过人脸识别在张学友演唱会现场抓捕逃犯时，当人们走进便利店只用“靠脸吃饭”时，当凌晨 2:30 还有智能客服解答售后问题时，你是否还是会有这样的疑问：人脸识别在应用的安全性上如何保证？智慧零售如何获取感知分析能力？AI 算法如何与硬件结合？终端硬件的计算能力不足问题该如何解决？伴随着数据量的迅猛增长，带宽和存储倍增的压力又该如何释放？

带着对这些问题的解答，来自腾讯优图、腾讯云、腾讯 AI LAB、英特尔的五位技术讲师，围绕着智慧零售、智能硬件、人脸核身、语音识别等产品技术，基于实际业务场景的落地与用户痛点开始了这场布道。

计算机视觉技术的落地

智慧零售是以消费体验过程为核心，以数据驱动的泛零售业态。其主要包括场景数据化和数据网络化两个结构。以电商为例，当消费者入店时，其形成的客户画像，以及整个流动轨迹，与商品的交互行为，购买，复购，到最终的离店。全闭程的环节都可以以数据的形式呈现出来，这也是零售中所谈到的非常重要的概念叫做人 - 货 - 场的关系。

而原本需要依靠门店运营者人眼观察进行的分析，现在就可通过计算机视觉技术的应用实现数据从非结构化到结构化的转变，并可以实时准确的帮助门店运营者分析统计数据，为门店实现降本增效。因此，计算机视觉技术也成为了建立人 - 货 - 场三者联系的天然纽带，并帮助商家提升全链路运营效率，优化客户体验，创造新的商业机会。

那么 CV 技术是如何在线下指导实践与应用？腾讯优图尝试将 CV 技术运用到线下门店运营的问题解决上，基于图像识别技术，人脸识别技术等计算机视觉技术，帮助商家将线下的场景做到数字化的分析。
此解决方案分为到店——>逛店——>购买三大模块，通过对各个环节的分解和洞察，为零售商打造知人知面更知心的智慧门店。

首先在影响营销销售额的 10 大因素中过店客流、进店客流是非常重大的因素。因此在到店模块中，客流从过店到进店的转换分析下，CV 技术能力可帮助商家分时分段的实时统计过店客流，以及过店到进店的客流转换，以此来指导零售商分析店铺的高峰期和冷淡期。同时，按照性别、年龄等特征维度，也可描绘出店家过店客流的人群画像。这些数据一方面可以指导店家调整橱窗陈列，另外一方面还可帮助营销活动的决策。如果是一个大型 Mall 的业态，或者连锁店的业态，还可通过进店客流对所有店铺进行排名，对比分析不同店铺客流量好与不好的影响因素，进行更加全面的分析与优化。

在完成了第一层漏斗转换的分析，接下来就是用户进店后，逛店到购买的转化。

啤酒尿布这个经典营销案例的背后就隐含着人 - 货 - 场关系对营销的影响，并体现着零售业中非常重要的一个指标：连带率。它反应了顾客购物的深度和广度。影响连带率的因素非常多，人的方面像销售技巧，比如客户在麦当劳中买了薯条，售货员可能会询问客户是否需要可乐；在货的层面，商品的 SKU 是否丰富，摆放是否具备吸引力；在场的层面，货架之间是否有关联，场内的游逛轨迹是否合理。所以如果说，第一环节从过店 - 进店是粗力度的客流统计和画像刻画。那么，第二环节，在逛店模块就需要对客流做非常细粒度的统计，帮助提升连带率的指标。

在逛店模块中，CV 技术再次帮助用户实现客流轨迹和全场热力的解决方案。

第一步，场内精细客流的统计。从客流进店后，可以做到精确到每一分钟，每几小时客流分布情况，以一个服装店为例，可以精确到男装、女装区域的客流分布情况，进行一个细粒度的客流统计；第二步，刻画客流轨迹。精确到进店后人流行走路线，客流整个的轨迹游逛的动线是怎么样的；第三步，实现区域热力的统计。热力分析的业务价值主要体现在零售 KPI 中的“坪效”的指标（通常是店长和陈列师的 KPI），表征单位面积区域对客户的吸引能力。

通过实现对场内精细客流的统计、客流轨迹的刻画和热区的分析，刻画场内用户行为，给到商家科学的可视化的数据，帮助商家合理规划顾客行走路线、洞察品类、洞察商品相关性，从而实现品类调换，布局优化，以及更加精准的定位人货场关系。

人脸核身技术的实践

在零售的场景中，客流统计、属性分析以及 VIP 客户识别的过程跟安防不太一样，安防大多是局域网的环境，从摄像头到处理单元基本上都在同一网络内。但零售场景的遍布全国各地线下商家非常多，摄像头布置在门店中，数据处理则一般放在云端，这势必会产生这样的问题：摄像机的视频如果上传时带宽不够该如何解决？常规的处理思路一般是使用 AI 摄像头，在摄像头侧进行 AI 预处理。对于没有智能的传统码流机，腾讯优图会提供盒子类的解决方案。

在当今这个人工智能惠及生活的时代，大部分用户都有这样的疑问：刷脸支付除了考验人脸识别技术以外，它的安全性如何保证？

首先用户需了解刷脸支付的开通流程。用户需在终端上先进行人脸检测，再进行端和云两侧都需要验证的活体防攻击检测，验证后会进行人脸核身，就是上传人脸并与从公安拿到身份证图片进行比对，验证本人身份。如果确认，即可开通免密刷脸支付。刷脸支付的使用过程与开通区别不大，但由于用户规模过大，使用上亿人脸库用来做支付的准确率和风险较大，所以在进行人脸检测后，通常会要求用户输入手机号进行二次确认。但从长远来看，输入手机号的过程最终将会淘汰。

对于人脸支付硬件，其中有两个十分重要的特性，一个是 3D 摄像头，它主要是进行活体检测。第二，是在流程当中进行检测、跟踪、优选、活体算法的前项计算过程。最早腾讯优图推出交互式的活体，通过摇头、眨眼动作验证真人身份，紧接着推出针对手机的应用场景推出光线活体检测，以及针对通用设备的红外活体检测以及 3D 活体检测。

红外双目活体检测方案采用的是双目摄像头，检测过程中输出一张 RGB 图与一张红外图，其算法原理是利用人的皮肤与纸张对红外光的反射不同，以此保证检测精度。但如若找到一种与皮肤相类似的材料进行检测，就不能保证识别的安全性，所以红外双目活体多用于刷脸开门等场景。

针对有着更高安全要求的刷脸支付，通常会使用 3D 摄像头配合检测，并输出一张 RGB 的图与一张人脸深度图，纸张等平面不存在深度信息，但人脸是有三维深度信息的，其输出的人脸深度图就可以用来做活体检测。

除了深度的要求以外，在实际应用中 RGB 摄像头的成像质量也至关重要。其实，技术人员是很难判断人脸支付 POS 机所处的具体环境，比如，若 POS 机放置于窗边，识别时人脸处于背光的场景，从而无法进行识别，这些都会给 RGB 成像带来巨大挑战。这时通常需要与 3D 摄像头的厂商明确，要求摄像机需优化到适配不同场景都能进行正常识别工作。

有了硬件之后，为了保证算法的流畅运行，还需进行性能加速。NCNN 是目前腾讯优图已经开源的移动端高性能前向计算框架，它支持卷积神经网络，支持多输入和多分枝的结构，支持多核并行加速，可扩展的模型设计，8bit 而量化半精度的存储，内存占用率比较低，计算速度较快。

而为解决维护成本高、网络不断加深、用户规模庞大等问题，腾讯优图在 NCNN 框架的基础上推出拥有跨平台、高性能、模型压缩、代码裁剪的 RapidNet 深度学习推断框架。它可以在各个平台上提供统一的接口，在性能优化上更加极致。但由于 CPU/GPU 交互延迟高，参数传输、数据拷贝耗时过多；网络中部分层运算量小，GPU 并行度不足；多路处理 CPU 性能不足，负载过大等原因，异构多核 CPU/GPU 加速技术成为了 RapidNet 主要的核心特性之一。其深度融合了基于 AMD 平台的 OpenCL GPU 并行计算加速技术和基于 IOS 平台的 Metal 加速技术，完美解决以上问题。

在零售方案中，由于线下门店遍布全国，设备以及服务的可靠性也是至关重要的。腾讯优图在终端上设计了分层架构，无论前端设备是什么，其接入取流是独立的一层。把 AI 相关的处理包括检测、跟踪、优选以及轨迹处理放于算法层。在算法层之上是服务监控层，监控包括设备的监控、服务的监控。在设备层监控服务基础之上是网络监控层，通过分离架构的设计兼容多个终端设备，保证服务的可靠性。

语音识别技术的应用

现如今，语音合成若不局限于时效性，完全可以做到与人类相似，语音合成技术也多被运用到导航、智能客服等场景。

语音和声音其实并不相同，声音包括大家所能听到的声音包括风声、水声、车声、动物生，语音是指人的发生器官发出具有一定社会意义的声音。语音是人的声音，机器可以理解的信号通常使用的是音频信号，音频信号是一个有规律声波的信号变化和载体，其特点是采样率、量化位数和编码算法。其中，量化位数是每个点采集的信息量，最常见的是 16 比特；在语音识别领域通常使用未压缩无损的编码算法进行存储。

以智能客服为例，从人开始说话到传输音频信号到云端，再做语音检测、语音识别，之后进行意图识别，由于通话不仅是一句话就可以完成，所以还需进行任务决策与目标引导，引导完成后再进行播报。其中，当用户在说话时，从电话里可能会夹杂很多噪声，这时语音活动检测能准确的把关注的话语内容挑选出来，从而进行语义理解。

其中，语音识别技术是把人类语音中的词汇内容转换成计算机可读的输入，简单来说就是把语音转为文本。当音频信号产生后，被传输至云端，也就是解码器。而解码器中的声学模型会把音频信号转化成建模单元，建模单元通常为拼音，之后接入词典，通过词典把拼音转化为文本，把发音相近的字或词挑选出来；语言模型部分，把最有可以的字或词按照时序组合出来，显示为识别结果文本。

最为常见的声学模型网络包括 DNN 网络以及 CLDNN 网络。其中，基础的 DNN 网络，下层为输入层，中间包含若干隐层，上层为输出层。而较为通用的 CLDNN 网络，C 就是卷积网络，L 是 LSTM 网络，D 就是 DNN，其特点为快速收敛，可快速达成较好的识别效果。

创作场景

刷脸支付“牛”在哪里？这 3 大技术是关键