InfoQ 获悉,近日,九章云极 DataCanvas 正式发布 DingoDB 多模向量数据库,并将其开源。据了解,DingoDB 提供了同时处理结构化和非结构化数据的能力,其多模态特性使其在处理不同类型的数据时更加灵活和高效。通过 DingoDB,用户可以构建专属的数据向量海“vector ocean”,并实现针对不同行业场景的多模态数据存储、分析和管理的个性化需求。
此外,DingoDB 还将数据湖和向量数据库的特性相结合,可以同时存储和处理多模态数据,并提供结构化与非结构化数据的联合查询和融合分析计算的能力;借助结构化和非结构化的融合分析计算技术,能够高效地管理和检索多模态数据,进一步提升数据的利用价值。
当前,市场上的向量数据库主要有三种形态:一是基于关系型数据库的向量索引,适用于小规模向量数据的存储和查询;二是专用向量数据库,通过使用特定的向量索引、压缩算法和查询优化技术来提供高效的向量存储和检索,一般用于企业级应用设计和优化的数据库解决方案;三是分布式向量数据库:利用分布式计算和存储技术实现了高性能和可扩展性,适用于大规模向量数据集和高并发访问的场景。
DingoDB 作为一种全新的向量数据库形态——分布式多模态向量数据库,具备上述三种数据库全部能力的同时,还支持多模态数据的统一存储和联合分析,进一步扩展了向量数据库的能力边界。DingoDB 在向量化数据存储处理方面提供以下功能特性:
统一存储:提供统一的数据存储能力,支持单表存储表标量/向量数据,适用于不同数据间的联合查询和分析计算,提供全面的数据处理能力。
多模态检索:支持基于不同模态数据的联合查询和检索,非结构化数据向量化存储,有利于处理、分析和应用非结构化数据。
联合分析:支持非结构化数据向量化处理,同时提供标量数据与向量数据的联合分析能力,确保用户获取全面、准确的结果数据。
一体化 SQL 计算引擎:使用 SQL 提供强大的结构化、非结构化的分析能力,实现多模态数据类型的综合分析。
异构计算:利用多种不同类型的计算资源执行数据处理和计算任务,提高数据库系统的计算性能、增强扩展性和灵活性,实现高效分析和科学计算。
目前,DingoDB 已完成与 LangChain 框架的对接。LangChain 是一种基于语义的知识图谱技术,它可以实现语义级别的数据关联和查询优化,从而提高数据库查询的效率和准确性。基于 LangChain 构建的数据库对接可以为数据查询效率带来一些潜在的提升。通过与 LangChain 的合作,DingoDB 能够实现与其他开源工具和技术更好的集成,从而向用户提供更强大的数据能力。
DingoDB 地址:https://www.dingodb.com
DingoDB GitHub 地址:https://github.com/dingodb
评论