矢量数据库：企业数据与大语言模型的链接器

随着 ChatGPT 的推出，通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者，而不是以往的开发者寻找市场。每一个企业都有大量的数据：私有的用户数据、自己积累的行业数据、产品数据、生产线数据、市场数据等等。这些数据都不在基础大语言模型的记忆里，如何有效地将这些数据利用起来，是政府和企业在迈向通用人工智能的发展道路上面临的重要课题。

我们可以将私有数据作为微调语料来让大语言模型记住新知识，这种方法虽然可以让大模型更贴近企业应用场景、更高效使用私有数据，但往往难度较大，另外企业数据涵盖了文本、图像、视频、时序、知识库等模态，接入单纯的大语言模型学习效果较差。

我们今天来聊聊另一种更常见的方案，通过矢量数据库提取相关数据，注入到用户 prompt context（提示语境）里，给大语言模型提供充分的背景知识进行有效推理。如图一所示。

矢量数据库允许任何对象以矢量的形式表达成一组固定维度的数字，可以是一段技术文档，也可以是一幅产品配图。当用户的提示包含了相似语义的信息，我们就可以将提示编码成同样维度的矢量，通过矢量数据库查寻 K-NearestNeighbor（近邻搜索）来获得相关的对象。Approximate Nearest Neighbor（近似近邻搜索）作为矢量数据库的核心技术之一，在过去的十年里获得了长足进步。它可以通过损失一定的准确度在高维空间里快速搜索近邻矢量，比如 NGT 算法可以在接近一千维的矢量空间达到万次查询，而准确度不低于 99%。如图二所示，不同的算法展现了不同的妥协效果。

这种语义搜索的方法起源于大语言模型时代之前，起初是为了降低企业搜索的工程复杂度，提升搜索结果的相关性，因为矢量本身和神经网络高度契合，也成为大语言模型应用的标准配置。甚至出现如 Memorizing Transformer 和 KNN-LM 这样的架构将近邻搜索算法和大语言模型结合来成功构造快速 external memory（外部记忆）。

但是这样的架构依然存在一个重要的问题：从用户的提示生成矢量，通过近邻搜索找到有关数据，这两方面的矢量相似度高并不一定代表语义的相关性也高，因为两方的矢量可能并不在同一语义空间。如果企业数据的语义空间和大语言模型有比较大的区别，图一所示的架构就可能无法有效地关联重要数据而降低了可用性。

这种语义空间差别在处理多模态数据时尤其明显，比如从文本到图像的对齐（如图三），从文本到知识图谱的对齐（如图四）。同时，图像、视频、知识图谱、文档等等都蕴含大量的信息，压缩到单一矢量大大损失颗粒度，从而降低了近邻搜索的有效性。

如果将这些对象碎片化处理，再由大语言模型进行整合，除了复杂的碎片化工程，这种方法大大提高了提示语境的长度要求。尽管大量的研究工作已经从计算效率上解决了语境长度的瓶颈，比如 Linear Transformer，Reformer，到最近的 LongNet，理论上 1B 的 Token 已经是可行的，但实际的效果却显示当前的大语言模型并不能很好地利用长语境来获得相关信息（如图五）。归根结底，将大量背景信息有效高效地投射到文本语义空间从而让后端的大语言模型可以更好发挥依然是目前应用开发的一大难点。

语义空间的投射可以看作是一个 alignment（对齐）任务。在粗颗粒度上，单一矢量的空间对齐可以通过学习投射矩阵来实现（如图六所示）。这个投射空间小，可以用较少的标注数据训练，从而大大提升搜索结果的相关性，也已经成为业界广泛使用的技术。

而细粒度的对齐工作依然是目前技术突破的焦点，从 Perceiver IO，CLIP 到 BLIP2，我们也渐渐看到交叉注意力机制的通用对齐能力（如图三、四），特别是大规模的无监督学习半监督学习大大提升了对齐的泛化能力。把这些对齐算法和矢量数据库结合起来提供快速高效的细粒度对齐将会极大提升大语言模型应用的用户体验，也是值得我们期待的方向。