基于图的搜索是一种新的数据和数字资产管理方法,最初由Facebook 和谷歌所倡导。对于每个查询,基于图的搜索引擎会考虑所有可用的“连通数据(connected data)”的整体结构。由于图系统清楚数据之间的关联关系,所以能够返回更丰富、更准确的结果。近日,Neo4j 首席科学家& 高级工程师 Jim Webber&Ian Robinson 探讨了图数据库在企业搜索中的应用。
作为一项前沿技术,基于图的搜索面临许多挑战,以下是其中部分最大的挑战:
- 数字资产元数据的规模和连通性:元数据越丰富,连通性越高,数字资产的可用性就越好。但元数据越多,数字资产的管理和搜索也越复杂。
- 实时查询的性能:对于基于图的搜索应用而言,其强大之处在于实时查询和检索数据。然而,实时遍历如此复杂且高连通性的数据是个巨大的挑战。
- 不断增加的数据节点数量:数字资产及其元数据的规模增长迅速,搜索应用需要能够适应当前及未来的需求。
与传统的、基于关键词的搜索不同,基于图的搜索更智能,允许用户提出更准确、更有用的问题,并返回更重要、更有意义的信息。借助基于图的搜索,用户可以实时查询所有连通数据,并根据返回结果中的信息发起新的实时搜索。图数据库使基于图的搜索成为可能,这主要是因为:
- 图数据库提供了支持数据自然结构的模型和查询语言,使企业可以在数据生成时准确地将其结构化,并基于它们固有的结构进行查询;
- 图数据库中的所有内容都具有丰富的元数据,使用户可以实时地快速搜索和发现;
- 图数据库的内置模型非常灵活,使数据架构师和开发人员可以轻松修改数据及其结构。
与关系型数据库相比,图模型更容易扩展,而且在操作连通数据时速度要快超过 1000 倍。起初,Facebook 和谷歌都提供了基于“关键词”的搜索。用户输入一个词或短语,然后得到一个包含关键词的结果列表。通常,用户需要反复定义搜索关键词,才能找到正确的结果。在认识到了关键词搜索的局限性之后,谷歌于 2012 年推出了“知识图”,而Facebook 随后于2013 年推出了“图搜索”服务。两者均在搜索中向用户提供了更多的上下文信息。紧跟这些巨头的步伐,一些新兴的初创公司(如 Glowbl )也创建了基于图的搜索工具。
谷歌、Facebook、 adidas 等公司的实践表明,对于拥有大量产品、内容或数字资产的企业,基于图的搜索是一种更好的、向用户提供数据的方法。基于图的搜索可以提供巨大的竞争优势,包括更好的客户体验、更有针对性的内容、更多的创收机会。
感谢郭蕾对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。
评论