写点什么

AI 和数据库真正的大一统时代要来了?OpenAI 突然收购实时分析数据公司 Rockset,剑指 AI 内存

  • 2024-06-24
    北京
  • 本文字数:4228 字

    阅读完需:约 14 分钟

大小:1.88M时长:10:55
AI和数据库真正的大一统时代要来了?OpenAI突然收购实时分析数据公司Rockset,剑指AI内存

OpenAI 收购数据库公司 Rockset


近日,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。

 


Rockset 团队的成员将加入 OpenAI,而 Rockset 的现有客户也将“逐步”离开 Rockset 平台。完整文章如下:

 

AI 技术有望改变个人和组织运用自身数据的方式,也正因如此,我们(OpenAI)决定收购 Rockset。Rockset 是一款领先的实时分析数据库,可提供国际一流的数据索引与查询功能。

 

Rockset 使得用户、开发人员及企业在使用 AI 产品及构建智能化应用程序时,能够更好地运用自身数据并访问实时信息。

 

我们将整合 Rockset 技术以支持 OpenAI 的跨产品检索基础设施,收购完成后 Rockset 旗下卓越的团队成员也将加入 OpenAI。

 

OpenAI 公司首席运营官 Brad Lightcap 介绍称,“Rockset 的基础设施能够帮助企业客户将其数据转化为可操作的情报。我们很高兴能够将 Rockset 的底层技术整合进 OpenAI 产品,从而为客户提供更多助益。”

 

Rockset 公司 CEO Venkat Venkataramani 也指出,“我们很高兴加入 OpenAI,通过为 AI 方案引入强大检索功能的形式,帮助用户、企业及开发人员得以充分利用其数据。”

 

Rockset 功能的整合工作已经启动,敬请期待更多后续消息。

 

此次收购中的财务条款细节尚未披露。


Rockset 由前 Facebook 工程师 Venkat Venkataramani 和 Tudor Bosman 以及数据库架构师 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库,允许开发人员构建数据密集型应用程序。值得注意的是,这支团队构建了 RocksDB,这是 Google LevelDB 的一个分支,LevelDB 是由 Jeff Dean 亲自编写的可嵌入 NoSQL 数据库

 

Venkat Venkataramani 担任创始人兼 CEO,曾任 Facebook 基础设施团队的工程总监,所带领的团队为 15 亿用户管理在线数据服务;更早之前,Venkat 在甲骨文公司担任主要技术人员,同样从事数据库工作。

 


Dhruba Borthakur 是公司联合创始人兼 CTO,他也同样在 Facebook 从事过数据库工作,还是 Hadoop 分布式文件系统的创始工程师之一,以及开源 Apache HBase 项目的贡献者。

 


Tudor Bosman 担任公司架构负责人,他硕士毕业于斯坦福计算机系,也曾在 Facebook 工作过多年,是 Facebook 搜索引擎 Unicorn 的领导者,还曾在甲骨文、谷歌等公司担任软件工程师。

 


多年来,Rockset 产品不断从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,从而实现无需预定义架构的实时查询。Rockset 使用开源 RocksDB 持久键值存储作为基础,充当 OLTP 数据库、数据湖和流媒体平台的外部二级索引。这可以加速实时分析查询并为主要事务系统提供性能隔离。

 

Rockset 的数据库平台支持推荐引擎、物流跟踪仪表板等,以及与 OpenAI 特别相关的金融科技和电子商务等领域的聊天机器人。

 

据 Crunchbase 数据显示,在被收购之前, Rockset 已成功从 Icon Ventures、Sequoia 和 Greylock 等投资者手中筹集了超过 1.175 亿美元的资金。该公司还拥有 Meta 和 JetBlue 等知名客户,这些客户将 Rockset 用作其航班延误预测聊天机器人的组件。

OpenAI 为何决定收购 Rockset?

 

此次收购 Rockset 是 OpenAI 继 Global Illumination 之后进行的第二笔公开收购,Global Illumination 是一家总部位于纽约的初创公司,利用人工智能构建创意工具和基础设施。

 

OpenAI 为何会收购 Rockset 技术?收购完成后,OpenAI 会用 Rockset 的技术构建什么?

 

OpenAI 在文章中表示收购 Rockset 是为其自家跨产品检索基础设施提供支持。由此可以明确看出,对实时数据的访问和处理技术已经成为当前 AI 军备竞赛中的重要一环。此外,OpenAI 也将通过收购 Rockset 吸纳一支经验丰富的实时分析专家团队,为 OpenAI 的能力增强贡献力量。

 

简而言之,OpenAI 是想将其内部的各个大模型“扎根”在公司的数据上,这也许可以帮助减少其大模型的幻觉或更容易对针对任意数量的业务用例对模型进行微调。

 

Venkataramani 也在随公告发布的博客文章中给出了 Rockset 融入 OpenAI 后的发展规划预览:“像 Rockset 这样的先进检索基础设施将使 AI 应用更加强大和实用,”他写道。“Rockset 将成为 OpenAI 的一部分,并为 OpenAI 产品套件的检索基础设施提供支持。我们将帮助 OpenAI 解决 AI 应用大规模面临的数据库难题。”

 

对于 OpenAI 此次的大手笔收购,有分析人士认为,这笔收购其实是从本质上说明了向量数据库无法真正地解决“人工智能内存”问题

 

从去年开始,与向量数据库相关的话题一直很火热,几乎每个向量数据库厂商都试图以“LLM 记忆”进行营销。但事实可能并非如此。有声音认为,向量数据库只是 LLM 的便签,可帮助用户查找一些信息。目前市面上还没有真正出现一个可重复的堆栈来将所有数据(结构化或非结构化)传输到企业需要的运营和分析存储中。

 

人工智能需要的内存形态是一种类似于人类的记忆的东西,人类的记忆不只是记住事情,还会把这些记忆总结并将它们相互联系——在使用之前进行分析。通用实时数据库是最接近这一点的东西

 

OpenAI 知道这一点,并希望开发这个适合企业的堆栈。利用数据库的廉价和高效的计算来卸载一些昂贵且缓慢的人工智能模型计算是件令人兴奋的事,而 OpenAI 似乎正在朝着这个方向努力。

 

此次收购也在 Hacker News 引发了广泛讨论。有用户认为:“RAG 更像是一个概念,而不是一个规范。RAG 不会阻止在传统数据库中添加向量索引和相似性搜索技术的潮流。这证实了传统数据库(OLAP 或 OLTP)不会消失。在所有 LLM 模型背后,仍然需要数据库中真实、权威的数据,以避免(或至少最小化)幻觉问题。无论如何,人工智能需要更多程序化的方法来获取这些数据。”

 

曾就职于甲骨文数据库公司、现任国内某开源分布式数据库公司副总裁的 Pine 表示:

 

“此次收购说明 OpenAI 这样的大模型供应商已经认识到,当大模型要在企业中落地时,要解决好两个问题:第一个是数据的实时分析问题,这就要求数据库有很高的实时性,第二个是要解决多模态向量检索问题。

 

也就是说,大模型要服务企业级应用时需要一个有云原生扩展能力、能提供实时性服务和向量搜索能力的混合型实时分析数据库。而这种情况下,纯粹的向量数据库在面对海量的、时效性要求高的、非结构化数据时优势就没有那么明显了。

收购大局已定,Rockset 用户需要做何准备?

对于当前使用 Rockset 产品的用户来说,时间已经相当紧迫。根据该公司发布的 FAQ 内容来看,所有未签订合同的按月付费用户必须在 2024 年 9 月 30 日之前退出。虽然签约客户将有权与自己的 Rockset 客服团队具体协调合适的退出计划,但全体客户必须尽快为 Rockset 物色替代方案已经成为不争的事实。面对板上钉钉的收购,各位 Rockset 用户必须提前想好下一步规划。



Rockset 用户可以采取以下措施进行应对:

  1. 评估自己的当前使用情况及要求:最好先做到心中有数,确保在评估替代方案前了解自己需要什么,这能为我们节省大量时间。

  2. 搜集功能相当或者更好的替代平台:您的业务需求可能很简单、可能极复杂,具体取决于您此前使用 Rockset 的方式。每种平台都有其优势和短板,请整理出平台在稳定支持您业务时至少应当具备的功能和特性,避免浪费宝贵时间评估那些根本无法满足您性能及功能需要的解决方案。

  3. 着手规划迁移流程,以避免对正常运营造成干扰:无论您选择了开源方案还是商业产品,对其背后支持能力或社区建设情况的评估都至关重要。请寻找一家能手把手指导您完成概念验证的合作伙伴,或者确定您打算选择的开源产品拥有全天候活跃、足以帮助您完成故障排查的技术社区,这一切将成为顺利迁移乃至未来长久应用的必要前提。

 

Rockset 用户有哪些方案可选?


在制定下一步计划时,Rockset 用户应当探索每一种替代方案的合理性,根据企业自身的特定用例与性能需求,不同平台提供的功能配伍也各有适用范围。下面几个重要选项可以作为参考:

面向实时分析 SQL 工作负载的开源选项:

 

  • Apache Druid: Druid 是一款高性能实时分析数据库,可在大规模、高强度负载下对流式及批量数据执行亚秒级查询。

  • ClickHouse: ClickHouse 是一款速度出色的开源列式数据库管理系统,允许使用 SQL 查询实时生成数据分析报告。

  • StarRocks: 非常适合运行可扩展的 JOIN 查询,并可在无需非规范化管线的情况下实现实时分析。凭借开箱即用的实时数据更新支持,StarRocks 能够直接在其列式存储上为可变数据提供秒级更新支持。

  • Apache Doris:Apache Doris 是一款高性能的开源实时数据仓库,支持大规模实时数据上的极速查询分析。相较于 Rockset,Apache Doris 同样支持实时数据更新、行列混存、半结构化 JSON 数据分析以及倒排索引和全文检索的能力,能满足高并发数据服务、实时报表分析、即席查询、湖仓一体以及日志存储分析等多个场景的需求。 


面向实时分析 SQL 工作负载的专有(商业)托管解决方案:


  • Imply: 具有企业级服务支持的云端托管版 Apache Druid。

  • CelerData: 云托管版 StarRocks,由 StarRocks 项目的发起者和维护者提供支持。

  • SelectDB:SelectDB 是基于 Apache Doris 构建的现代化数据仓库,提供了全托管的云原生实时数仓服务 SelectDB Cloud 和私有化部署模式的 SelectDB Enterprise 两种产品形态。


开源向量搜索 (VectorDB):

  • Weaviate: Weaviate 是一款开源向量数据库,可存储对象及向量,允许将向量搜索与结构化过滤相结合,具备云原生数据库的容错性及可扩展性。

  • Milvus: 面向下一代 AI 应用的云原生向量数据库及存储方案。

  • Qdrant: 面向下一代 AI 的高性能、大规模向量数据库。

托管向量搜索 (VectorDB):

  • SingleStore: 除 SQL 功能之外,SingleStore 还提供托管向量搜索功能,这也使其成为适合两类工作负载的综合性解决方案。

  • Zilliz: 作为 Milvus 的同门师兄弟,Zilliz 提供向量搜索托管服务,在继承 Milvus 优势的同时提供额外的支持和维护保障。

  • Pinecone: 一套完全托管的向量搜索平台,可简化向量搜索应用程序的部署和扩展,确保高可用性及性能水平。

 

迁移工作已经迫在眉睫,各位用户需要确保自己的关键基础设施始终保持完整及稳定运行。不同平台各有优势,需要实际开展评估以确保成功迁移。

 

参考链接:

https://web.swipeinsight.app/posts/openai-acquires-rockset-to-enhance-real-time-analytics-and-retrieval-capabilities-7788

https://starrocks.medium.com/rockset-is-acquired-by-openai-what-does-it-mean-for-its-users-3fa9561979d2

https://techcrunch.com/2024/06/21/openai-buys-rockset-to-bolster-its-enterprise-ai/

https://www.singlestore.com/blog/openai-acquires-rockset/

2024-06-24 17:2912418
用户头像
李冬梅 加V:busulishang4668

发布了 940 篇内容, 共 534.1 次阅读, 收获喜欢 1105 次。

关注

评论

发布
暂无评论

龙智携手Atlassian和JFrog举办线下研讨会,探讨如何提升企业级开发效率与质量

龙智—DevSecOps解决方案

Atlassian JFrog

聚焦用户隐私安全,华为助力APP开发者守护个人信息安全

最新动态

开箱即用!3个视频教你玩转华为云CodeArts Board!

华为云PaaS服务小智

云计算 软件开发 华为云

细数2019-2023年CWE TOP 25 数据,看软件缺陷的防护

华为云开发者联盟

安全 后端 华为云 华为云开发者联盟 企业号9月PK榜

ClickHouse在腾讯游戏营销效果分析中的探索实践

腾讯云大数据

Clickhouse

腾讯专有云TCE高分通过信通院“一云多芯”标准测试

Geek_2d6073

夏天不开车?沃尔沃XC40纯电版为你带来清凉与健康

新消费日报

影响LED显示屏价格的因素

Dylan

软件 硬件 价格 LED显示屏 led显示屏厂家

文心一言 VS 讯飞星火 VS chatgpt (86)-- 算法导论8.2 3题

福大大架构师每日一题

福大大架构师每日一题

重新定义内容创作和教育的新范式

百度开发者中心

人工智能 文心一言 文心大模型‘

业务不想停机,就得这么实现MongoDB迁移

NineData

mongodb 数据迁移 NineData MongoDB迁移 全量数据迁移

AI应用如何进行测试?

互联网工科生

人工智能 AI

D&R IP-SoC China 2023 Day演讲预告 | 龙智Perforce专家解析芯片开发中的数字资产管理

龙智—DevSecOps解决方案

芯片 半导体

公众期待开放的自然语言处理神器

百度开发者中心

人工智能 ChatGPT 文心一言

你应该知道的几个大数据平台相关术语

行云管家

数据中台 数据安全 大数据平台

引领未来,挑战与机遇并存

百度开发者中心

人工智能 图像识别 文心大模型

时尚行业的前沿与挑战

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

OpenHarmony使用ArkUI Inspector分析布局

OpenHarmony开发者

OpenHarmony

荣耀开发者沙龙 · 北京站 活动精彩回顾

荣耀开发者服务平台

开发者 互联网技术 互联网生态 安卓 ios honor

数仓资源管控理论已掌握,是时候实战了

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

Autodesk AutoCAD 2021 for mac(cad2021) v2021.1.2永久激活版

mac

苹果mac Windows软件 CAD设计软件 AutoCAD 2021

NFTScan | 08.28~09.03 NFT 市场热点汇总

NFT Research

NFT\

入坑ThreadLocal,这一篇文章就够了

树上有只程序猿

Java ThreadLocal

做等保测评的公司有多少家?哪里可以查到?

行云管家

网络安全 等级保护 等保测评 等保测评机构 行云堡垒

如何避免财务共享流程设计不够落地导致实施初期重新设计的问题

用友BIP

智能财务 财务共享

AI和数据库真正的大一统时代要来了?OpenAI突然收购实时分析数据公司Rockset,剑指AI内存_生成式 AI_李冬梅_InfoQ精选文章