10 月,开发者不可错过的开源大数据大会-2021 WeDataSphere 社区大会深圳站 了解详情
写点什么

百度辜斯缪谈搜索引擎的未来——实体搜索

2012 年 11 月 25 日

百度资深研发工程师辜斯缪:多年来,自然语言技术一直被认为是人机界面的“乌托邦”梦想。也即人们对计算机说出一句话,计算机就能够理解并迅速响应。然而,在现实应用中,人们使用最为频繁的,还是基于关键词的搜索引擎。近年来搜索引擎呈现出“关键词”——“SNS”——“实体搜索”的递进式发展,其搜索对象也从“信息片段”到了“人”以及“实体”。

何为 SNS 搜索和实体搜索

如百度空间、百度知道、百度贴吧类社区式服务,再比如微博这样的服务,实质是将人聚合在一起。SNS 搜索,就是可以找到感兴趣的人。当看到百度空间、百度知道、百度贴吧、微博上感兴趣的内容,也能够进一步找到这个人,和他 / 她交朋友。这就是 SNS 搜索。

而实体(Entity)搜索是相对于关键词(keyword)搜索而言的。关键词搜索是只能针对用户输入关键词去检索,搜索引擎按照字面意思检索。实体搜索关注的重点不是“关键词”级别的信息,而是“对象”,比如:人、电影、软件、小说、公司,组织等等。从关键词向实体转化,将从更精细的角度来理解和组织搜索结果。在一定程度上可以理解 query(即用户搜索需求)的意思,并直接给出答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如搜“张艺谋导演的电影”。

辜斯缪做了进一步的解释:

很多时候用户的需求就是这样,只知道想找某一类东西,但并不明确具体要找的东西叫什么。对于这样的需求,过去是一筹莫展的,而我们现在却能够智能的搜索到结果,并组织成一个集合呈现给用户。事实上,百度在揣度用户心思的方面做了很多努力,希望尽可能的识别出用户的需求,哪怕用户对需求的描述是多样化的或者不规范的。

比如,我买了同仁堂这支股票,搜索“同仁堂”可以找到它的股票行情,或者搜索“600085”的股票代码也可以搜索到它的行情。现在的搜索引擎可以认为已经有了一定的人工智能,能够猜到你到底要搜索什么并且能够直接给你推送相关的结果。传统搜索引擎只能“返回”用户下的指令,实现不了智能的“发现”。比如你搜索“秋天开花的树”,需要在搜索结果中不断去手动探索答案。而实体搜索,用户只需要通过一次点击,就能得到想要的结果。之前需要用户亲自执行的中间繁复的筛选 + 搜索的过程,全部由实体搜索代替用户完成。

实体搜索都有哪些技术创新

实体搜索背后,需要有一个关于实体的信息数据库,库里的信息既要包含海量的实体信息,还要有能精确描述实体的相关属性。实体库的建设需要长期的积累和强大的数据挖掘技术,这正是百度的长处。百度从互联网海量的网页中挖掘出有效的实体,对这些实体进行分类,并能把关键的属性也进行分类,保证了实体信息的广度,也保证了实体属性的精度。

辜斯缪谈到:

通过百度独特的数据挖掘技术,实体搜索能做到的不仅目前可见这些,还能提供更复杂的信息。比如实体之间的关联。像人与人之间的关系,通过获取到的资源,仅从字面信息是不能完全分辨的,需要更进一步的挖掘和分析。比如明星的人物关系。最简单的是家庭关系,从一张网页的字面信息就能直接获取,明星之间的朋友关系就复杂一些,不能从一张网页上得到,而是需要对明星人物相关的页面进行整理,提取其中的相关信息,通过分析和比较,才能得出结果。

2012 年 11 月 25 日 19:511506
用户头像

发布了 156 篇内容, 共 43.8 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

第2周作业

娄江国

极客大学架构师训练营

江帅帅:精通 Spring Boot 系列 06

古月木易

Spring Boot

最初的梦想

小天同学

写作 成长 梦想

接口隔离原则设计缓存Cache工具类

Arvin

架构师训练营——第二周总结

jiangnanage

如何理解依赖倒置

丿淡忘

极客大学架构师训练营 依赖倒置原则

OOD四大原则

清风明月

week2作业

慢慢来的比较快

第二周作业

晓雷

不懂什么是锁?看看这篇你就明白了

cxuan

Java 并发

架构师第二周

Tulane

Python中的下划线

shiziwen

Python

架构师训练营第 0 期 - 第 2 周 - 学习总结

极客大学架构师训练营

架构师训练营 Week02 学习心得

极客大学架构师训练营

第2周总结

娄江国

极客大学架构师训练营

架构师训练营第二周总结作业

兔狲

架构师训练营第0期-第2周-命题作业

极客大学架构师训练营

Week 02- 作业二:学习总结

dean

极客大学架构师训练营

因为知道了30+款在线工具,我的工作效率提升500%!

Hollis

架构师训练营第二周作业

Jerry Tse

极客大学架构师训练营 作业

什么是依赖倒置原则

老A

极客大学架构师训练营

架构师训练营第二周作业

Geek_2dfa9a

依赖倒置原则

互金从业者X

第2周作业

sunpengjian

数据库大咖讲坛活动6月18日墨天轮平台线上举行,阿里腾讯达梦众多数据库大咖齐聚!

墨天轮

数据库 腾讯云 阿里云 数据库设计

0期架构Week2作业2

Nan Jiang

架构师训练营-第二周学习总结

牛牛

学习 极客大学架构师训练营

架构师课作业-第二周

Tulane

Lesson 2 软件设计原则 心得笔记

edd

江帅帅:精通 Spring Boot 系列 06

奈学教育

Spring Boot

打造个人品牌的意义

董一凡

发展 求职

百度辜斯缪谈搜索引擎的未来——实体搜索-InfoQ