AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

增强 AI 能力:谷歌云在托管数据库中集成向量搜索

作者:Renato Losio

  • 2023-07-15
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

增强AI能力:谷歌云在托管数据库中集成向量搜索

谷歌云最近在 Cloud SQL for PostgreSQL 和 AlloyDB for PostgreSQL 中增加了对 pgvector 的支持。这个扩展为托管数据库带来了向量搜索操作,允许开发人员存储大型语言模型(LLM)生成的向量嵌入并执行相似性搜索。


Cloud SQL 和 AlloyDB 现在可以与 Vertex AI 上的生成性 AI 服务配对,帮助创建能够感知应用程序和用户状态的 AI 应用程序。谷歌高级产品经理 Sandhya Ghai 和产品经理 Bala Narasimhan 解释说:


向量嵌入是一种数值表示,通常用于将复杂的用户生成内容(如文本、音频和视频)转换为易于存储、操作和索引的形式。这些表示由嵌入模型生成,如果两个内容在语义上相似,它们各自的嵌入就会在嵌入向量空间中彼此相邻。然后,向量嵌入会被索引,被用于基于相似性进行有效的数据过滤。


例如,开发人员可以使用 Vertex AI 的预训练模型在文本和图像之间生成嵌入,并将它们存储并索引到数据库中,简化查找相似记录的过程。


用户现在可以使用 CREATE EXTENSION 命令在现有的数据库中安装 pgvector 扩展:


postgres=> CREATE EXTENSION IF NOT EXISTS vector;CREATE EXTENSION
postgres=> CREATE TABLE embeddings( id INTEGER, embedding vector(3));CREATE TABLE
postgres=> INSERT INTO embeddings VALUES (1, '[1, 0, -1]'), (2, '[1, 1, 1]'), (3, '[1, 1, 50]');INSERT 0 3
复制代码


来源:https://cloud.google.com/blog/products/databases/using-pgvector-llms-and-langchain-with-google-cloud-databases


正如 Ghai 和 Narasimhan 所解释的那样,这一新功能还可以帮助开发人员利用预训练的 LLM:


我们需要了解的是,LLM 没有状态的概念……嵌入允许你将大型上下文(如文档或历史聊天记录)存储在数据库中,并过滤它们,以便查找最相关的信息。然后,你可以将最相关的聊天历史记录或文档片段输入模型来模拟长期记忆和业务特定知识。


谷歌云发布了一个 Colab Notebook 和一个视频,用 pgvector、开源框架 LangChain 和 LLM 构建 AI 驱动的应用程序。谷歌高级软件工程师 Saket Saurabh 演示了如何在示例 Python 应用程序中添加生成式 AI 功能,他写道:


pgvector 扩展还引入了用于对向量执行相似性匹配的新运算符,你可以用它查找语义上相似的向量。这样的运算符有两个:

‘<->’:返回两个向量之间的欧几里得距离……

‘<=>’:返回两个向量之间的余弦距离


在过去的几个月中,谷歌云并不是唯一一个瞄准向量数据库的云供应商,Amazon RDS for PostgreSQL 也支持 pgvector 扩展,微软还展示了如何将 Azure Data Explorer(ADX)作为向量数据库,并讨论了几种连接到向量数据库的连接器。


原文链接:


https://www.infoq.com/news/2023/07/gcp-databases-vector-search/

2023-07-15 08:003076

评论

发布
暂无评论
发现更多内容

软件安全测试

刘冉

软件测试 安全测试

敏捷中的威胁建模

刘冉

敏捷开发 威胁建模 安全测试

我们的敏捷测试实践

刘冉

软件测试 敏捷测试

AI 预测:基于流计算 Oceanus(Flink) 实现病症的实时预测

腾讯云大数据

flink 流计算 Oceanus

Flink 实践教程-入门(7):消费 Kafka 数据写入 PG

腾讯云大数据

flink 流计算 Oceanus

性能测试之并发模型对比(JMeter,Locust和Gatling篇)

刘冉

软件测试 性能测试 自动化测试

设计消息队列存储消息数据的MySQL表格

白开水又一杯

#架构实战营

dart系列之:dart类的扩展

程序那些事

flutter dart 程序那些事 11月日更

模块八作业

potti

谁有粉?就爬谁!他粉多,就爬他!Python 多线程采集 260000+ 粉丝数据

梦想橡皮擦

11月日更

一分钟搞懂DDD

俞凡

架构 DDD

NodeJs深入浅出之旅:内存控制(上)🐍

空城机

大前端 Node 11月日更

北鲲云超算平台对于基因组学研究能够提供哪些帮助?

北鲲云

学生管理系统设计文档

Geek_cb2b43

通过 Feature Level 动态控制 SAP Spartacus 的页面显示

汪子熙

typescript angular SAP 11月日更

双11硝烟散去,零售业开始“外卷”

脑极体

springboot中poi操作合集

小鲍侃java

11月日更

如何使用Camtasia给视频打码

淋雨

Camtasia

点进来,与白洞一起体验一场沉浸式智慧轨道之旅

白洞计划

Flink 实践教程-入门(6):读取 PG 数据写入 ClickHouse

腾讯云大数据

flink 流计算 Oceanus

如何使用 JavaScript 扁平化/非扁平化嵌套 JSON 对象?

devpoint

JavaScript json Object 11月日更

2021年了,数据分析还吃香么?

Geek_utwige

Python 最佳实践 数据分析 爬虫 职业发展

Django中的超级用户和自己创建app原来这么简单!

老表

Python django web开发 11月日更 博客系统

架构实战训练营模块三

人生就是梦

「架构实战营」

服务端系统性能测试

刘冉

性能测试

架构实战营模块三作业

spark99

架构实战营

自定义View:如何实现图片放大后拖动和滑动效果

Changing Lin

11月日更

[架构实战营]模块三作业:学生管理系统详细架构设计

Geek_99eefd

「架构实战营」

分布式技术专题-服务架构设计-带你统一认识一下系统架构及分析和总结

码界西柚

架构设计 总结思考 11月日更 架构介绍

瀑布vs敏捷质量控制

刘冉

敏捷开发 敏捷测试

软件测试中的服务虚拟化

刘冉

Mock测试框架 服务虚拟化

增强AI能力:谷歌云在托管数据库中集成向量搜索_AI 工程化_InfoQ精选文章