基于腾讯云Elasticsearch搭建QQ邮箱全文检索

2020 年 11 月 15 日

基于腾讯云Elasticsearch搭建QQ邮箱全文检索

导语 | 随着用户邮件数量越来越多,邮件搜索已是邮箱的基本功能。QQ 邮箱于 2008 年推出的自研搜索引擎面临着存储机器逐渐老化,存储机型面临淘汰的境况。因此,需要搭建一套新的全文检索服务,迁移存储数据。本文将介绍 QQ 邮箱全文检索的架构、实现细节与搜索调优。文章作者:干胜,腾讯后台研发工程师。


一、重构背景


QQ 邮箱的全文检索服务于 2008 年开始提供,使用中文分词算法和倒排索引结构实现自研搜索引擎。设计有二级索引,热数据存放于正排索引支持实时检索,冷数据存放于倒排索引支持分词搜索。在使用旧全文检索过程中存在以下问题:


  • 机器老化、磁盘损坏导致丢数据;

  • 业务逻辑复杂,代码庞大晦涩,难以维护;

  • 使用定制化kv存储,已无人维护;

  • 不存储原文,无法实现原生高亮;

  • 未索引超大附件名。


旧的全文检索在使用中长期存在上述问题,恰逢旧的存储机器裁撤,借此机会重构 QQ 邮箱的全文检索后台服务。


二、新全文检索架构


Elasticsearch 是一个分布式的搜索引擎,支持存储、搜索和数据分析,有良好的扩展性、稳定性和可维护性,在搜索引擎排名中蝉联第一。


ES 的底层存储引擎是 Lucene,ES 在 Lucene 的基础上提供分布式集群的能力以确保可靠性、提供 REST API 以确保可用性。


Lucene 底层使用倒排索引提供搜索能力,使用 LSM tree 合并处理 Doc 加快索引速度,使用 Translog 持久化数据,实现方式与邮箱旧全文检索相似。


为了快速搭建出一套新全文检索后台并完成迁移,QQ 邮箱全文检索的重构选择 Elasticsearch 作为搜索引擎,同时响应自研上云号召,一步到位直接使用腾讯云 ES 构建搜索服务。


1. 邮件搜索特点


邮箱的发信和收信行为都会触发写全文检索,而搜索行为会触发读全文检索,呈现明显的写多读少。


区别于互联网搜索,邮件检索有自己的特点:


搜索范围 准确度 排序
互联网搜索 整个互联网 容忍少量漏搜或多搜 按相关度排序
邮件检索 用户自己的邮箱 要求精确结果 按时间排序,同时支持按发件人、时间、已读未读进行分类


2. 全文检索后台架构


邮箱全文检索模块 fullsearch 的整体架构如上图所示,fullsearch 承担的功能是收录用户的邮件、记事等内容并提供查询。fullsearch 模块下游直接对接腾讯云 ES,内网通过 http 请求访问 ES 的 REST API。模块上游的请求分为两类:


(1)增、删、改


入信、发信、删信等行为会触发更改 ES 内的 doc,入信、发信对实时性要求一般但可靠性要求较高,而删信行为不要求实时性。这类操作都可以异步处理。


(2)查


搜索行为包括邮件普通搜索、邮件高级搜索,将来还有邮箱内全品类搜索。这类搜索行为要求较高的实时性和准确性,需要同步处理。



fullsearch 内部设计如下:


  • 使用 HTTP 协议与腾讯云ES通讯,传输 json 格式数据,邮箱后台广泛使用的 protobuf 数据结构能轻松转换为 json 格式;

  • esproxy 使用 curl 连接池代理邮箱后台与ES的http连接,以提升网络连接速度;

  • 使用 MQ 对增、删、改这类异步请求进行削峰,以保护下游 ES。同时利用 MQ 延时和重试功能,确保请求被成功处理;

  • 对搜索结果进行过滤,避免搜索结果列表出现已删除邮件。在 ES 故障时,提供另一种搜索机制兜底。


三、新全文检索的实现细节


利用邮箱后台现有的组件库,如 svrkit rpc 框架、protobuf 数据结构、自研 MQ 等能快速将上述 fullsearch 模块搭建出来,但实现过程中遇到以下几个实际问题。


1. 号段索引 or uin 索引


第一个要解决的是如何分配索引的问题。最初为了实现 ES 内的数据按 uin 进行隔离,每个 uin 建一个索引。


随着用户数量上来后,ES 提示分片数量达到上限,不可创建新的索引。这是因为 ES 集群对每个索引都会维护映射和状态信息,索引和分片数量过多会导致占用大量内存。详情可参考 文档[1]


ES 官方建议将结构相同的数据放入一个索引,既然不能按 uin 建索引,那可不可以建一个索引容纳全量用户的数据呢?答案是否定的,分片数量过多也会对内存有很大的开销。


ES 的索引概念相当于 MySql 的表概念,一个索引对应一张表,类似 MySql 可以分表,ES 也可以拆分索引。


所以一个折中的方案是(如下图),按 uin 尾号号段(如果号段数据不均匀可以按 uin 哈希)分别建立若干个索引,每个索引内设置少量分片。随着邮件数量上涨,每个索引内的数据量也将上涨,将来可以通过扩展分片数量解决。



所有搜索操作都带上号段索引,如"428/_search",可达到相对较快的搜索速度,但无法达到按 uin 建索引的搜索速度,因为搜索速度取决于每个索引内的 doc 数量。有没有办法让号段索引的搜索速度媲美 uin 索引的速度呢?


ES 官方提供了一个 索引设置[2] 选项"index.sort",该选项可以使索引内的 doc 在存储时按照某几个字段的升序或降序进行顺序存储。如果设置 doc 按 uin 顺序存储,在搜索时就能将搜索范围缩小到属于某个 uin 的 doc 存储范围,这将显著提升搜索速度。


与此同时会带来一个负面影响,在增、删、改 doc 时,由于要重排 doc 顺序,这些操作的速度将下降 1/3,需要根据业务特点做权衡。


值得注意的是,这个选项只能在新建索引的时候开启,开启后不可改变,故需要提前压测来权衡是否开启该选项。


2. 邮件正文 to ES 字段


如果想让邮件内容被索引到,一般会将邮件主题、正文、附件等分别添加到 doc 的一个字段,并将该字段设置为 type:text。邮件正文被放进 ES 的 text 字段之前,需要做一些预处理,来保证将来的检索质量。


邮箱全文检索会收录邮件、记事本和在线文档的数据。如下图以邮件正文为例,邮件正文一般是一段 html,如果将 html 收录进 ES 太浪费存储空间,而且会干扰高亮的识别,所以需要 提取邮件正文的纯文本


<body class="global">  <div class="container">    <div class="head content">      <h3>您好!</h3>
复制代码


同时,邮件的超大附件信息被放在了正文里,如果搜索超大附件名则需要去搜正文而不是搜附件,这不符合用户使用常识。


另外,有一些 html 节点内包含大量乱码或 url,属性为 display:none,比如邮箱的超大附件,这些乱码文本也是需要剔除掉的。


<span style="display:none;">:http://wx.mail.qq.com/ftn/download?func=3&k=c7991f38b1d109adf4ea5216042ca62df1e0f2a0b6a2ba26e6a261631539efd62535&key=c7991f38b1d109adf4ea4d38603464390ec0623866a2ba26e6a261631539efd62535&code=8fc8b4d9</span>
复制代码


要解决上述问题,可以从解析 html 节点入手:


  • 提取纯文本节点并累加,即可过滤所有 html 标签;

  • 识别含有超大附件的节点,并提取超大附件名;

  • 过滤属性为 display:none 的节点。


此时问题就变成寻找一个符合要求的 html 解析器,把 htmlbody 解析为 dom 树。常见的 xml 解析器有 rapidxml、tinyxml 和 pugixml。


笔者选择的是 pugixml,优点是速度快、易于使用且支持 xpath,缺点是解析较为严格、遇到不规范的 html 会抛异常。


如下图所示,笔者对 pugixml 进行了一番改造,使之增强对 html 的兼容性。在 pugixml 出现异常时,使用速度稍慢些的 ekhtml 解析器作为兜底。



3. ProtoBuf to Json


fullsearch 模块调用腾讯云 ES 的 REST API 使用 json 数据包进行交互,有大量的打包 json 和解析 json 的操作。而邮箱后台广泛使用的数据结构是 protobuf,这就需要完成 protobuf 到 json 的互相转换。


如果手动判断 protobuf/json 是否存在某个字段,再使用 rapidjson 或 jsoncpp 进行解包和封包,则太繁琐且容易出错。



这里选择直接让 protobuf 字段与 json 字段进行映射,使用 protobuf 自带的工具 MessageToJsonStringJsonStringToMessage [3] 进行 protobuf 和 json 的相互转换,使用起来十分方便。



四、搜索调优


1. 调优背景


新全文检索搭建上线后测试迁移了一批邮件,收到一些关于搜索结果不精确的反馈:


  • 搜出大量有关邮件,但想找的邮件不在列表第一页;

  • 搜不出邮件;

  • 无法通过订单号精确查找邮件。


初步分析,主要由以下几个原因造成:


  • 模糊搜索结果虽能按相关度排序,但前端显示结果按时间倒序排序,导致相关度高的结果不一定排在第一页;

  • 将模糊搜索替换为精确搜索后,搜索过于严格,导致搜不出邮件;

  • 无法知道用户的意图是精确搜索还是模糊搜索,导致不能用一种搜索模式满足所有用户搜索意图;

  • 订单号一般由字母+数组组成,分词器处理订单号时,由于默认的分词规则,会丢弃单字母或单数字,导致无法精确匹配。


下面首先详细介绍 ES 的搜索机制,然后通过案例分析对 ES 搜索做一定的优化。


2. ES 搜索机制


ES 的全文搜索查询主要分为两种:match 和 match_phrase,它们的搜索机制是:


  • 入信时,ES 分词器先对 doc 中 type:text 字段进行分词,默认记录下每个分词的词频和词语在原文中的位置,存在倒排索引中;

  • 搜索时,对搜索关键字进行分词,根据关键字分词在倒排索引中查到每个分词的 docid 列表。如果 match(operator=or),则停止搜索并返回 docid 列表;

  • 对第二步每个分词的 docid 列表求交集得到新的 docid 列表,使得列表中每个 docid 都出现所有分词。如果是 match 搜索,则停止搜索并返回 docid 列表;

  • 比较第三步每个 docid 中所有分词的相对位置,是否与第一步中原文分词的相对位置相同,过滤掉相对位置不同的 docid,结束搜索。这一步是 match_phrase 才有的,且会小幅增加搜索耗时。



来看一个例子,搜索关键字"银行账单",ik_smart 分词列表为["银行", "账单"]。


  • match_phrase 搜索最严格,要求"银行"、“账单”同时出现且相邻,只能匹配一篇文章;

  • match(operator=or) 只要求出现"银行"、“账单”即可,能匹配所有文章;

  • match(operator=and) 要求同时出现"银行"、“账单”,但对词语间隔不做要求,匹配数量介于两者之间,搜索结果精度优于 match(operator=or)。


3. 两级搜索


fullsearch 模块使用 match_phrase 处理精确搜索,使用 match(operator=and) 处理模糊搜索。


为了最大化满足不同用户对精确搜索和模糊搜索的需求,先用 match_phrase 精确搜索,搜不到内容再用 match 模糊搜索。


统计显示精确搜索搜到内容占搜索请求的比例达到 90%,且模糊搜索的耗时远小于精确搜索,两次搜索不会增加太多等待时间。


模糊搜索可能搜到大量结果,按时间倒序后,相关度高的结果可能排在后面,造成不好的搜索体验。这里可以对模糊搜索的结果进行剪枝,去除低评分的结果,使得相关度高的结果适当靠前。


另外,可通过调整不同字段的权值(boost)来调整搜索评分。按照多数用户的搜索习惯,适当调高主题搜索权重。


未来,邮箱还将在搜索框集成查询语法,让用户自定义搜索条件(and、or、not)。


4. 调整 match_phrase


使用 Kibana 的调试工具可以很方便地获取一段文字被分词器处理后的 token 列表,如下图,token 列表中每个 token 都是一个分词。在上文 ES 搜索机制中提到,match_phrase 会确保搜索关键字 token 列表中的词语、词语间隔和词语顺序,与原文分词后的 token 列表相同。


(1)测试案例


下面来看一个案例,原文是“一品城府 7-1-501”,搜索关键字“一品城府 501”无法精确搜索。


(2)分析原因


如下图,搜索关键字分词 token 列表中的词语、词语顺序与原文相同,但词语间隔不对,则 match_phrase 失败。



(3)解决思路


match_phrase 有个参数 slop,设置 slop 值能容忍一定的 token 列表词语间隔。在 4.2 节第四步分词匹配时会不断变换分词位置,可以只过滤掉词语间隔超过 slop 的 docid。


这个案例中,match_phrase.slop 值设为 4 可解决问题。但设置 slop 值将增大匹配工作量,如果 slop 过大将严重拖慢搜索速度,一般 slop 设置为 5 以内。


5. 改造分词器


(1)测试案例


测试时,有一类反馈比较集中,搜索字母+数字(如订单号)搜不出结果。看一个案例,原文是“AL0927_618”,搜索关键字“AL0927”,无论使用精确搜索还是模糊搜索都搜不出内容。


(2)分析原因


因为关键字的“tokenal0927”不在原文 token 列表中,不满足 4.2 节搜索机制中第三步匹配条件。这个问题其实是分词器的缺陷,ik 分词的 github 上有人提过类似 案例[4],但无人回应。



(3)解决思路


对比上图中原文和关键字 token 列表,如果搜索时关键字分词 token 列表中不出现关键字本身(al0927),就能成功实现 match_phrase 匹配。有两种实现方案:


  1. 将搜索关键字做个预处理,从 al0927 变为 al 空格 0927;

  2. 寻找一个新的分词器,使得 al0927 的分词列表只含有 al、0927。


观察上图 ikmaxword 分词器处理后的 token 列表,token 列表中类型为 LETTER 的 token 就是关键字本身,是不是过滤 LETTER 类型 token 就能解决问题?


在测试验证后,笔者选择第二种方案,基于 ik 分词器进行改造,过滤 token 列表中类型为 LETTER 类型的 token,新分词器命名为 xmikmax_word。



新分词器的效果如上图所示,这时搜索 AL0927 就能够实现精确匹配。改造后的分词器解决了使用 ik 分词无法对字母+数字关键字精确搜索的问题。


6. 使用空格分词器


(1)测试案例


使用改造后的 xmikmax_word 分词器后解决了大部分订单号搜索的问题,但测试中出现一个无法精确搜索的案例,搜索关键字“20X07131A”。


(2)分析原因



使用不同分词器对 20X07131A 处理的分词 token 列表如上表所示,ikmaxword 和 xmikmax_word 分词器处理后会丢失末尾 a,因为字母 a 是 ES 默认的 stop words。


如果使用 xmikmax_word 分词器精确搜索,可能会匹配上 20X07131A、20X07131AB、20X07131B 等,出现很多无关结果。


(3)解决思路


由于原文被 index 到 ES 时使用的是 ikmaxword 分词,保留了 LETTER 类型 token,对于订单类型搜索则可以让搜索关键字分词后只剩下 LETTER 类型 token。


笔者使用的是 whitespace 分词器,让用户来决定分词方式。whitespace 会对搜索关键字按空格分词,并自动完成小写转换和特殊字符处理。如上表,whitespace 分词器的 token 列表能精确匹配上 20X07131A 所在的原文。


五、结语


借助腾讯云 ES 作为搜索平台,可以很快完成一套全文检索服务的搭建。腾讯云 ES 作为 Paas,可以方便地进行扩缩容与维护。


随着 ES 版本迭代,ES 支持越来越多的功能配置,需要根据业务特点来决定索引阶段与搜索阶段使用的配置。


邮箱的全文检索业务在切换到腾讯云 ES 后,平稳地完成了后台搜索平台的迁移,并解决了旧全文检索存在的问题。


ES 内置的 ik 分词器无法满足某些业务使用需求时,可以对 ik 分词器做改造,或更换别的分词器。


参考资料


[1] ES 分片:


https://www.elastic.co/cn/blog/how-many-shards-should-i-have-in-my-elasticsearch-cluster


[2] ES 索引排序:


https://www.elastic.co/guide/en/elasticsearch/reference/7.5/index-modules-index-sorting.html


[3] MessageToJsonString/JsonStringToMessage:


https://developers.google.com/protocol-buffers/docs/reference/cpp/google.protobuf.util.json_util


[4] ik 分词案例:


https://github.com/medcl/elasticsearch-analysis-ik/issues/660


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接


基于腾讯云Elasticsearch搭建QQ邮箱全文检索


2020 年 11 月 15 日 14:001395

评论

发布
暂无评论
发现更多内容

宿舍晚上温度高,那是你没听“鬼故事”

华为云开发者社区

人工智能 AI 华为云 modelarts

Python处理邮件和机器人的实用姿势

程一初

Python 自动化 办公

LeetCode1160---拼写单词---Easy

书旅

LeetCode

Python处理PDF的实用姿势

程一初

Python 自动化 办公

前端科普系列(4):Babel —— 把 ES6 送上天的通天塔

vivo互联网技术

Java 前端 ES6

Python处理视频文件的实用姿势

程一初

Python 自动化 办公

JavaScript 测试系列实战(一):使用 Jest 和 Enzyme 测试 React 组件

图雀社区

单元测试 自动化测试 Jest

Python处理PPT文件的实用姿势

程一初

Python 自动化 办公

详解责任链模式

海星

数字货币交易所开发,虚拟币交易平台搭建app

WX13823153201

交易所开发

如何与面试官更好的沟通

escray

学习 面试 面试现场

Python处理Word文件的实用姿势

程一初

Python 自动化 办公

MacOS 环境下 Python 访问 MySQL

李绍俊

Python处理Excel文件的实用姿势

程一初

Python 自动化 办公

业务架构是什么?

周金根

BIZBOK 业务架构 IT帮 周金根

解读 Reference

浮白

ThreadLocal Reference ReferenceQueue Finalizer WeakHashMap

并发神器CSP的前世今生

soolaugust

go 并发编程 并发

LeetCode680-验证回文字符串 Ⅱ-Easy

书旅

LeetCode

MySQL从入门到精通

书旅

MySQL 索引

影响音视频延迟的关键因素(三): 传输、渲染

ZEGO即构

buffer API RTC sdk

带你全面认识 Linux

简爱W

数据库设计

Jayli

数据库

Python处理图像文件的实用姿势

程一初

Python 自动化 办公

utf8字符集下的比较规则

Simon

MySQL 字符集

前端科普系列(2):Node.js 换个角度看世界

vivo互联网技术

node.js 前端

代理模式详解

海星

前端科普系列(3):CommonJS 不是前端却革命了前端

vivo互联网技术

Java 前端 脚本

Python处理音频文件的实用姿势

程一初

Python 自动化 办公

从《三体》到“中美科技战”,3分钟理解“网络”D丝为什么要迎娶“算力”白富美

华为云开发者社区

数据 网络 芯片 算力 三体

【程序员自救指南】中关村保洁大叔的一句话竟然帮我转正了

华为云开发者社区

服务器 数字化 华为云 企业上云 云服务器

Python1024办公自动化系列

程一初

Python 自动化 办公

基于腾讯云Elasticsearch搭建QQ邮箱全文检索-InfoQ