百度资深研发工程师辜斯缪:多年来,自然语言技术一直被认为是人机界面的“乌托邦”梦想。也即人们对计算机说出一句话,计算机就能够理解并迅速响应。然而,在现实应用中,人们使用最为频繁的,还是基于关键词的搜索引擎。近年来搜索引擎呈现出“关键词”——“SNS”——“实体搜索”的递进式发展,其搜索对象也从“信息片段”到了“人”以及“实体”。
何为 SNS 搜索和实体搜索
如百度空间、百度知道、百度贴吧类社区式服务,再比如微博这样的服务,实质是将人聚合在一起。SNS 搜索,就是可以找到感兴趣的人。当看到百度空间、百度知道、百度贴吧、微博上感兴趣的内容,也能够进一步找到这个人,和他 / 她交朋友。这就是 SNS 搜索。
而实体(Entity)搜索是相对于关键词(keyword)搜索而言的。关键词搜索是只能针对用户输入关键词去检索,搜索引擎按照字面意思检索。实体搜索关注的重点不是“关键词”级别的信息,而是“对象”,比如:人、电影、软件、小说、公司,组织等等。从关键词向实体转化,将从更精细的角度来理解和组织搜索结果。在一定程度上可以理解 query(即用户搜索需求)的意思,并直接给出答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如搜“张艺谋导演的电影”。
辜斯缪做了进一步的解释:
很多时候用户的需求就是这样,只知道想找某一类东西,但并不明确具体要找的东西叫什么。对于这样的需求,过去是一筹莫展的,而我们现在却能够智能的搜索到结果,并组织成一个集合呈现给用户。事实上,百度在揣度用户心思的方面做了很多努力,希望尽可能的识别出用户的需求,哪怕用户对需求的描述是多样化的或者不规范的。
比如,我买了同仁堂这支股票,搜索“同仁堂”可以找到它的股票行情,或者搜索“600085”的股票代码也可以搜索到它的行情。现在的搜索引擎可以认为已经有了一定的人工智能,能够猜到你到底要搜索什么并且能够直接给你推送相关的结果。传统搜索引擎只能“返回”用户下的指令,实现不了智能的“发现”。比如你搜索“秋天开花的树”,需要在搜索结果中不断去手动探索答案。而实体搜索,用户只需要通过一次点击,就能得到想要的结果。之前需要用户亲自执行的中间繁复的筛选 + 搜索的过程,全部由实体搜索代替用户完成。
实体搜索都有哪些技术创新
实体搜索背后,需要有一个关于实体的信息数据库,库里的信息既要包含海量的实体信息,还要有能精确描述实体的相关属性。实体库的建设需要长期的积累和强大的数据挖掘技术,这正是百度的长处。百度从互联网海量的网页中挖掘出有效的实体,对这些实体进行分类,并能把关键的属性也进行分类,保证了实体信息的广度,也保证了实体属性的精度。
辜斯缪谈到:
通过百度独特的数据挖掘技术,实体搜索能做到的不仅目前可见这些,还能提供更复杂的信息。比如实体之间的关联。像人与人之间的关系,通过获取到的资源,仅从字面信息是不能完全分辨的,需要更进一步的挖掘和分析。比如明星的人物关系。最简单的是家庭关系,从一张网页的字面信息就能直接获取,明星之间的朋友关系就复杂一些,不能从一张网页上得到,而是需要对明星人物相关的页面进行整理,提取其中的相关信息,通过分析和比较,才能得出结果。
评论