QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

优雅!比 OpenAI 更认真的文本嵌入模型

  • 2023-11-28
    北京
  • 本文字数:5188 字

    阅读完需:约 17 分钟

优雅!比OpenAI更认真的文本嵌入模型

一、前言


伴随着 AIGC 浪潮的涌起,Embedding 技术作为助推 AIGC 的关键因素逐渐为更多人所熟知。随着该技术的应用日益广泛,使用 Embedding 的人群也与日俱增。关于 Embedding 的最早提法可追溯至 2012 年 Google 的 Word2vec 论文。时至今日,Embedding 经历了超过十年的发展历程,从最初的 Word Embedding,发展到 Sentence/Paragraph Embedding,并扩展至结构化数据、图像处理、语音识别以及多模态等多个方向,以至于有“万物皆可 Embedding”的说法。模型的训练框架也由最初的浅层网络逐步发展为以 Transformer 为核心的深度学习网络。


数据科学应用中心很早便开始广泛使用 Embedding 技术,在众多项目中都可见其身影。本文将首先介绍数科 Embedding 技术的应用案例,展示了如何通过将 Embedding 技术与其他算法相融合,以提升排序效果。紧接着,详细介绍了模型效果的评价方法。最后,展示了与 OpenAI 的 Embedding 模型、开源 Embedding 模型 S-Bert 的效果对比。在众安 FAQ 数据集和中文通用 FAQ 数据集上,众安 Embedding 模型各项指标都处于领先位置。


二、案例介绍


Embedding 技术可以用来进行相似度计算,如:文本、图像、语音等的相似度。因此,它在搜索业务中得到广泛应用,可以直接用于搜索,也可以作为整个搜索链路中的一部分。同时,还可以作为特征用于提升推荐、聚类、分类排序等各类算法的应用效果。

2.1 概述


目前,Embedding 被应用到智能客服、金融风控、企微赋能等多个项目中,为业务突破提供助力。


  • 在智能客服场景中,FAQ 检索是非常重要的模块。用户的问题会被拿到知识库中检索,找到与之匹配的标准问题,然后将标准问题对应的答案返回给用户。在知识库检索中,我们用到了基于向量的检索(Embedding Based Retrieval, EBR),用户问题 Embedding 后,通过 EBR 召回部分问题。EBR 作为召回层的其中一路(图 1),用于提升整个流程的召回准确率。在客服 FAQ 数据集上,Top1 标准问题召回率 97.6%, Top5 标准问题召回率 99.7%。

  • 在金融风控场景中,团伙报案连续性强、数量多、危害大,业务日均审批单流量非常大,人工方式从海量的历史图片中挖掘出数百张相似图片,难度非常大。数科算法部图像组应用基于向量的检索方法后,线上相似场景识别率接近 100%,在仅有 CPU 资源的条件下,实现了数百毫秒的服务耗时。

  • 在企微赋能场景中,坐席通常需要同时服务非常多的用户,选出高意向度用户精准服务就非常的关键。通过 Embedding + Attention (注意力机制),用户的属性信息及多个时间段会话文本被精准的融合在一起计算用户的投保意向度。相关模型上线后,7 日内转化率提升 80%, 人均保费提升 10%。

2.2 案例详解


我们挑选了 FAQ 检索的案例给大家做更为详细的介绍,描述如何将 Embedding 技术与其他算法结合提升 FAQ 的排序效果。但在这之前,需要先明确算法里面速度和准确率的权衡和基于向量的检索相关知识,这对不熟悉的同学理解我们的架构非常重要。



图 1. FAQ 检索算法架构

2.2.1 速度和准确性的权衡


机器学习算法领域,在其他条件一致的情况下,准确性高的模型通常计算复杂度也会更高。很多时候,因为生产环境的硬件水平限制(无 GPU 或者应用在边缘设备上),通常会选择准确性略低但速度满足应用场景的模型。一般在谈论算法准确性的时候,需要考虑到计算复杂度。(注:前提是同一测试数据集,同一模型在不同数据集上表现差异很大,主要原因就是不同数据集数据分布和难度不同,脱离数据集谈准确性毫无意义)


比如,在实时语音通话过程中用户的意图计算,需要先将语音通过 ASR 算法转化为文本,再通过意图识别模型完成预测,整个流程需要在非常短的时间内完成。应用大模型确实可以将模型准确率推高一点(如:准确率 Accuracy-93.6% vs 95.3%),提高得很少,但是秒级以上的推理时间会严重影响用户体验,而数科算法团队研发的模型在 CPU 环境中仅需几十毫秒、几毫秒甚至更少的时间,就可以取得 93.6% 的准确率。


特别说明,这里的大模型并非 ChatGPT 这样的大语言模型,在意图识别场景,ChatGPT 模型要做意图识别,通常的做法是给出意图定义及示范例,通过上下文学习(In-Context Learning)的方式进行预测,这种方法不仅准确率相对参数量少很多的监督学习的模型低(相关评价指标 Accuracy、F-score),而且推理速度也要慢很多。如果对大语言模型参数设置不熟悉,使用默认的参数配制,还容易出现多次预测结果不一致的情况。


下面要介绍的 FAQ 检索中,直接将复杂度更高精排模型应用于用户问题和所有知识库问题相似度计算中会提升 FAQ 匹配的相关指标,但是需要大量的计算资源和高企的推理时间为代价,尤其在 QPS 大的时候。因此,通常的做法就是召回+排序的策略, 召回层通过快速的相似度计算方法,召回有限数量的样本, 然后用精度高排序算法排序,通常各个网站和应用的搜索引擎也遵循这样的策略。

2.2.2 基于向量的检索 EBR


基于向量的检索 EBR 其实就是通过算法模型 Encoder 将 Query 转化成向量,然后计算 Query 向量与知识库中预先计算好的文本、图片等对应向量之间的距离。最后,根据距离排序,检索出相应的结果。距离计算可以是余弦相似度,向量内积、欧几里得距离等,具体选择哪一种距离取决于模型 Encoder 的训练策略。


需要注意的是,在计算 Query 向量和知识库向量距离的时候,如果知识库内容数量特别大,推荐选择近似近邻(Approximate Nearest Neighbor, ANN)方法而不是 K 近邻(K-Nearest Neighbor, KNN),其主要原因也是速度和准确率的权衡,KNN 的计算量过大。并且通过调整 ANN 方法特定参数可以使得相关指标非常接近 KNN, 比如其中的 HNSW 算法,可以通过调整 nlist、nprobe 等参数来提升检索的准确率。

2.2.3 FAQ 检索


图 1 展示了 FAQ 检索的架构图,基于向量的检索 EBR 是被用作召回层的一路来提升整体的召回效果(评价指标 recall@k,后面我们会详细讲解该指标),因为仅用 Embedding 并不能满足 FAQ 排序指标的要求。具体算法流程如下:


1.用户问题理解


主要包括:问题 Embedding、意图识别、问题纠错和关键词识别等。其中 Embedding 模型是针对众安 FAQ 检索场景开发的专有模型,具有非常好的召回和排序效果。


2. 知识库问题召回


算法模型一般具有偏向性,多路召回有助于提升召回样本的多样性,改进最终的排序效果,该案例采用了两路召回的策略:


  • 向量检索 EBR:使用了 FAISS 工具,同时预先将知识库 FAQ 转化成向量。在调用时,根据当前用户 Embedding 与知识库向量之间的欧几里得距离进行排序。本案例会根据不同的知识库问题数量采用不同的检索策略。当知识库问题数量很大时,用 HNSW 算法进行近邻检索,相对于其他的 ANN 方法,该算法在保障召回率的同时,计算速度上有一定优势,通常的向量检索工具中都有该算法。当知识库数据量较小时,则会采用 KNN。

  • 关键词加权的召回:ElasticSearch 基于词的检索使用的是 tf-idf、BM25 等算法,这些算法在关键词的权重的计算方面并不准确,依赖知识库中的数据分布。因此,本案例采用 DeepCT+BM25 的方法,用 DeepCT 算法来精确计算词的权重,然后根据权重调整 BM25 中 query 的输入形式,提升了召回率。简单来说,就是利用 DeepCT 算法提升了 ElasticSearch 的搜索效果。


3. 排序


如果直接对召回的知识库问题进行精排,计算量会非常大,因此采用粗排+精排的策略:


  • 粗排:采用相对召回层略复杂准确率更高的 Poly-Bert 算法,从召回的结果中选出 Top20 的知识库问题。

  • 精排:计算文本相似度方面,Google 在相关论文中从理论上证明了相对于 Embedding 距离计算方法,交互式文本相似度计算具有更高的准确性,当然也具有更高的算法复杂度。不同于 Embedding 方法,在分别计算两个问题的向量后再通过两个向量的距离比较相似度,交互式相似度计算从算法模型最底层就开始层层相互比较,因此选择了基于文本对交互计算的模型 Keywords-Bert。这个模型不仅从 transformer 框架的最底层开始交互比较,而且还在最后一层还加入了两个问题关键词之间的比较,通过各种细节的比较提升相似度计算的准确性。最终,该算法挑出 Top5 问题。


4. 策略层


这一层主要是通过规则及语言模型(Language Model,LM)来判断用户问题和答案之间的关联性,从而选出最合适的答案来回答用户问题。


在 FAQ 检索中,Embedding 被用作召回功能,通过快速的 Embedding 模型召回及排序模型的精准选择,实现速度和精度的平衡。虽然在这里 Embedding 模型只负责召回,但是召回 k 个知识库问题中包含的相关问题数量同样影响到最终的排序效果。如果 Embedding 模型召回精度不高,那么为了保障最终的排序效果就需要增加 k 的数量,这会带来后续计算耗时的提升,因此需要训练高质量的 Embedding 模型来保证召回效果。


三、Embedding 模型检索效果


Embedding 模型的效果如何,不同的场景有不同的指标,相同的模型在不同的场景也会有不同的表现。由于目前更多的是用在检索场景,因此这里仅分析模型在检索场景下的表现。

3.1 评估指标


在比较 Embedding 模型的效果之前,需要先了解检索效果的评估方法,检索效果评估主要指标有:召回率(Recall) 、精确度(Precision)、MAP(Mean Average Precision)、MRR(Mean Reciprocal Rank) 、nDCG(Normalized Discounted Cumulative Gain)等,这里主要讲 Recall 和 MRR 这两个指标。

召回率(Recall) 是基于向量的检索模型召回效果的常用评估指标,它表示在检索到 top-k 问题中相关问题的数量与所有相关问题数量的比值。



其中,k 表示召回问题的数量,k 越大对应的召回率越高,当 k 等于知识库问题量的时候,recall 必然等于 100%。因此,只有在 k 值有限且相同的情况下,recall 比较才有意义,k 越小 recall@k 值越高模型效果越好。


表 1. Recall 计算示例



表 1 中,检索显示 top3 的结果,因此 k=3,可以计算得出该测试集 recall@3 = (1/2 + 1/1) / 2 = 3/4 = 0.75


然而 recall@k 这个指标中并没有考虑排序因素,比如: 表 1 中“枸杞,菊花,红枣一起泡茶喝有什么好处”,无论其排在第 1 还是第 3 都不会影响其 recall@k 的值,而排第 1 的排序效果明显要好于排第 3 的,所以在一些关注 top-k 顺序的场景,recall@k 就不适用了。


MRR(Mean Reciprocal Rank) 就是考虑了 top-k 顺序的指标,RR(Reciprocal Rank)是请求 Q 检索响应的前 k 个结果中第一个正确响应的排序位置的倒数,如果第一个正确相应排序位置是 1,那么 RR=1/1; 如果排序位置是 2,则 RR=1/2; 如果是 3,则 RR=1/3,以此类推。如果前 k 个结果中没有正确相应,则 RR=0,排名越靠前 RR 就越大。MRR 是所有请求测试样本的 RR 平均值。



表 2. MRR 计算示例



在表 2 中,检索显示 top 3 的结果,因此 k=3,可以计算出 MRR@3 = (1/2 + 1/3)/2 = 5/12 ≈ 0.417

3.2 模型效果


这里主要展示了数科自研 Embedding 模型(众安 Embedding)、OpenAI Embedding 模型和 SentenceBert(S-Bert) 中文 Embedding 模型在众安及通用中文 FAQ 上的效果比较(表 3), 三个模型的详情如下:


  • 众安 Embedding 模型 - 参数量: 0.2 亿,输出向量长度: 128/256

  • OpenAI Embedding 模型 – 参数量: 6 亿,输出向量长度: 1536

  • SentenceBert 中文模型 - 参数量:4.8 亿, 输出向量长度:768


在这三个模型中 OpenAI Embedding 的参数量和输出向量长度最大的,其次是 SentenceBert, 众安 Embedding 模型最小。因此,众安 Embedding 模型在将 query 转化成向量时是最快的,同时由于输出向量长度仅 128 或 256,在应用 ANN 或者 KNN 方法进行检索时的耗时也最短。


表 3. 测试数据集

测试集****请求数量****知识库数量****
众安FAQ****2k+21k+
中文通用FAQ****27k+110k+


表 4. Embedding 模型 Recall 指标比较



注:1-recall@k 的 1 表示所有的相关问题数量是 1


表 5. Embedding 模型 MRR 指标比较



注:当 k=1 的时候,因为不存在排序问题,1-Recall@1 和 MRR@1 相等


表 4 和表 5 展示了三个模型的召回排序性能比较结果。在众安 FAQ 数据集上,众安 Embedding 模型不论是 Recall 还是 MRR 指标均明显优其他两个模型,其中 1-Recall@1 为 0.976 比 OpenAI 的 0.828 高 0.148,MRR@10 为 0.983 比 OpenAI 的 0.887 高 0.096,无论是召回能力还是排序性都有很大优势。这表明特定领域的专有模型表现要明显好于通用模型,即使专有模型的参数量要小很多。而在中文通用 FAQ 数据集上,众安 Embedding 模型依然表现最好,但优势已没有那么大。一方面因为 OpenAI 和 S-Bert 在中文通用 FAQ 数据集上表现都不错,1-Recall@1 达到 0.92+,可提升空间相对较小;另外一方面是众安 Embedding 模型参数量仅 0.2 亿,远小于其他两个模型,如果采用差不多参数量的模型,其效果还会有所提升。


四、总结


本文展示了 Embedding 应用的案例、模型评估方法及众安 Embedding 模型的效果。Embedding 既可以直接用来检索,也可以与其他的模型相结合做出更高精度的模型。在实践中应用高质量的 Embedding 是一项复杂且具有挑战的工作,涉及到数据、深度学习建模、生产系统构建、端到端优化等多方面,每个方面都有大量细致性的工作,我们会持续提升 Embedding 系统,为业务加增量提供助力。


2023-11-28 10:26996

评论

发布
暂无评论
发现更多内容

C语言自定义类型的介绍(结构体,枚举,联合体,位段)

未见花闻

6月月更

讲讲我的不丰富的远程办公经验和推荐一些办公利器 | 社区征文

Regan Yue

远程办公 初夏征文

AS深圳站来了!参与讨论领取官方限量周边!

InfoQ写作社区官方

热门活动 ArchSummit

ribbon

卢卡多多

6月月更

一款支持内网脱机分享文档的接口测试软件

Xd

Java 后端 接口测试工具

一次 MySQL 误操作导致的事故,「高可用」都顶不住了!

悟空聊架构

MySQL 高可用 悟空聊架构 6月月更 事故复盘

Linux开发_BMP图片编程(翻转、添加水印)

DS小龙哥

6月月更

【直播回顾】战码先锋第七期:三方应用开发者如何为开源做贡献

OpenHarmony开发者

OpenHarmony

apipost接口断言详解

Xd

Java 接口测试工具

uni-app进阶之认证【day12】

恒山其若陋兮

6月月更

Java中使用正则检查有效日期

okokabcd

Java

保健品一物一码防窜货营销软件开发

开源直播系统源码

软件开发 app源码

事件

Jason199

js 事件 6月月更

flutter系列之:flutter中的offstage

程序那些事

flutter 程序那些事 6月月更

开源一款监控数据采集器,啥都能监控

巴辉特

Nightingale #Prometheus

LRU 原理与算法实现

Ayue、

LRU

保险APP适老化服务评测分析2022第06期

易观分析

保险APP

应用升级SpringCloud版本时的注意事项(Dalston升级到Edgware)

程序员欣宸

spring Spring Cloud 6月月更

敏捷之道 | 敏捷开发真的过时了么?

LigaAI

敏捷 敏捷开发 敏捷软件开发 敏捷宣言 LigaAI

linux存储结构与磁盘划分

乌龟哥哥

6月月更

给你讲懂 MVCC

Nick

MySQL 源码 MVCC 6月月更 深入解析

Prometheus PushGateway 碎碎念

耳东@Erdong

Prometheus PushGateway 6月月更

Vue2/3 自定义组件的 v-model 到底怎么写?💎

德育处主任

JavaScript Vue model Javascript框架 6月月更

浅谈如何运营好小红书账号:利用好长尾词理论

石头IT视角

JVM调优简要思想及简单案例-怎么调优

zarmnosaj

6月月更

《梦华录》要大结局了,看超前点映不如先来学学它!

博文视点Broadview

初中级开发如何有效减少自身的工作量?

百家饭隐私计算平台创业者

开发 书籍推荐

一文简述:供应链攻击知多少

穿过生命散发芬芳

供应链攻击 6月月更

什么是数据中台

奔向架构师

数据中台 数据仓库 6月月更

Android 11适配指南之Toast解析

yechaoa

android 适配 6月月更 11.0

一个使用 Shell 脚本实现的 Docker

ScratchLab

优雅!比OpenAI更认真的文本嵌入模型_云计算_众安保险_InfoQ精选文章