写点什么

ArchSummit 讲师专访:百度主任架构师廖若雪谈搜索新时代

  • 2012-07-06
  • 本文字数:1655 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 中文站主办的首届 International ArchSummit 架构师峰会即将召开。我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题。

廖若雪,百度主任架构师,现在主要负责推荐。在百度之前做了很长时间跟搜索架构、图形分析相关工作。

InfoQ:您在百度内负责了哪些与搜索相关的技术和架构?

廖若雪:我最早进百度就是开始做检索架构,后来就逐渐扩展到跟 ranking 相关的,比如说排序、相关性,逐渐扩展到用户行为分析,后来又做了一段下一代搜索架构相关工作。

InfoQ:您认为搜索目前面临哪些问题?有哪些地方可以改进?

廖若雪:现在搜索引擎本身是从满足用户需求角度出发的,然后扩展到一些新问题,包括时效性、权威性、相关性,以及这两年新出来的一些东西,比如我们推出一些满足用户真正潜在需求的功能。尽管有绝大部分用户需求我们已经满足的不错了。但是还有相当一部分用户需求我们满足得不好,我们可以看到很多。举个例子,用户,尤其中国用户的自然语言表达成分越来越多,这对于搜索是巨大的挑战。在很多国家,或者一些高端用户,他们在查询的时候,他会写一些独立的、用空格隔开的词。在中国,很多用户一上来就直接输入问题。比如可能有人输入:一篇描写春天的作文,五百字左右,然后空格,快一点。这是一个很有意思的概念,用户使用搜索引擎,是把你当成一个万事通。如何去满足这样的需求呢,我们用了很多方法。从语义角度,从用户行为分析的角度,去解决这样的问题。我们解决了一部分,但还有很大一部分问题没有解决,这是一个方面。

第二个比较大的挑战:很多时候,现在用户在使用搜索引擎时,他的需求是隐藏的,我们称之为潜在需求,流行一点,就是个性化需求。这种潜在需求是和他的个性化有关的。举个最简单的例子,用户搜索天气,这个个性化产生在什么地方呢?在于他的位置,在北京,北京的天气,在深圳,深圳的天气。这是跟地理相关的。比如说他搜苹果,对于很多人来说,可能是吃的苹果;最近新闻上面也有一些跟跟吃的苹果相关的新闻。还有很多人是对于苹果电脑、苹果公司和 WWDC 大会的新闻。这就需要我们把这个人搜索时的上下文,对他所处的环境,融入搜索结果中。

InfoQ:这次“搜索新时代”专题中目前有这几个演讲:百度陈竞凯的“网页搜索新技术探讨”、搜狗茹立云的“深层网络搜索核心技术探讨”、一淘网曲琳的“购物搜索引擎架构的变与不变”。对于这几个演讲,您有什么期望?

廖若雪:这些议题都是我们现在搜索中随时面临的一些主要问题。实际上百度对这些问题或多或少有自己的研究,或者很多自己的方法,也希望看到很多同行有没有新的方案,新的思路,或者说比我们做得更好的,我们可以借荐的地方。

InfoQ:除 Google、Bing 之外,国外还有一些其他搜索引擎,比如像 DuckDuckgo、WolframAlpha 等等,但是他们并不像 Google 和 Bing 这么成功,您觉得原因何在?

廖若雪:这些搜索引擎是在某一方面产生了突破,比如说在处理自然语言方面,或者说处理一些更复杂的结构化数据上面,会更加得力。但是我们知道:搜索引擎,现在已经不是一个小众的、或者能满足用户一部分就能做起来的产品。首先要满足用户大量的需求,如果对于比较通用的需求满足不好,只在某一方面有突破,其实没有办法作为用户日常使用的搜索引擎存在。

InfoQ:请您对参加“搜索新时代”和 ArchSummit 架构师峰会的参会者说几句话。

廖若雪:希望这个架构峰会办好,真正能使得做架构的同仁们在里面学到知识,真正解决问题,让大家一起讨论得比较开心,能够交到真正的朋友。

相关信息


给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-07-06 00:402115
用户头像

发布了 479 篇内容, 共 157.9 次阅读, 收获喜欢 49 次。

关注

评论

发布
暂无评论
发现更多内容

打破孤岛运营,增强企业凝聚力

智达方通

数据孤岛 全面预算管理 企业绩效管理 信息孤岛 预算管理

一次不规范HTTP请求引发的nginx响应400问题分析与解决

高端章鱼哥

nginx HTTP

云原生应用交付平台 Orbit 主要功能与核心能力

CODING DevOps

Orbit gitops 应用管理

故障分析 | 从慢日志问题看 MySQL 半一致性读的应用场景

爱可生开源社区

MySQL innodb 事务

11个开源项目,5位技术大咖…华为云亮相2023开放原子全球开源峰会

华为云开发者联盟

开源 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

国内高校最大的云上科研智算平台在复旦大学正式上线

新云力量

智能 计算 复旦大学 云上科研智算平台

一个斜杠引发的CDN资源回源请求量飙升

互联网工科生

CDN

数据交换不失控:华为云EDS,让你的数据你做主

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

国产替代,本质是价值替代

用友BIP

用友BIP全球司库十问之资金结算如何统一管理?

用友BIP

全球司库 资金管理

Windows 系统下怎么获取 UDP 本机地址

高端章鱼哥

AIGC+灵活用工|延长行业生命线、改写传统用工模式,还得看AI的!

TE智库

人工智能 人力资源 灵活用工 AIGC 生成式AI

Bean生命周期的扩展点:Bean Post Processor

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

软件测试 | 性能工具规划

测吧(北京)科技有限公司

测试

免费沉浸式Twitter翻译工具 ZipZapAI用AI打破语言障碍

Ricky

ChatGPT GPT-4 ChatGPT4 chatgpt插件

精选|Dubbo异步化实践

得物技术

AI 2.0来袭,AIGC如何重新定义招聘?

用友BIP

AI 招聘

软件测试 | 性能测试整体规划

测吧(北京)科技有限公司

测试

龙蜥白皮书精选:面向芯片研发和验证的操作系统 SiliconFastOS

OpenAnolis小助手

开源 操作系统 芯片 龙蜥社区 SiliconFastOS

深度分析:企业大数据分析的选型需要关注哪些能力

对不起该用户已成仙‖

如何在 NGINX 中安全地分发 SSL 私钥

NGINX开源社区

nginx ssl

浮点数-Float-Double转二进制在线工具

入门小站

支撑 “千万设备日活” 的创米数联 7 年微服务架构演进之路

阿里巴巴云原生

阿里云 微服务 云原生

体验超凡速度的美国独立IP虚拟主机服务!

一只扑棱蛾子

美国主机 美国独立IP虚拟主机 美国虚拟主机

企业需要什么样的全面预算管理?

用友BIP

全面预算

跑得更快!华为云GaussDB以出色的性能守护“ERP的心脏”

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

软件测试 | 性能测试范围

测吧(北京)科技有限公司

测试

英特尔以领先产品,为AI领域客户提供高性能和高性价比

E科讯

RocketMQ on openEuler 提供高性能消息队列的稳定性解决方案

openEuler

Linux cpu 操作系统 openEuler 内核

《数据结构》之栈和堆结构及JVM简析

EquatorCoco

数据结构 教程

ArchSummit讲师专访:百度主任架构师廖若雪谈搜索新时代_百度_郑柯_InfoQ精选文章