写点什么

海量数据的分页怎么破?

  • 2020-01-15
  • 本文字数:3161 字

    阅读完需:约 10 分钟

海量数据的分页怎么破?

一、背景

分页应该是极为常见的数据展现方式了,一般在数据集较大而无法在单个页面中呈现时会采用分页的方法。


各种前端 UI 组件在实现上也都会支持分页的功能,而数据交互呈现所相应的后端系统、数据库都对数据查询的分页提供了良好的支持。


以几个流行的数据库为例:


查询表 t_data 第 2 页的数据(假定每页 5 条)


  • MySQL 的做法:

  • select * from t_data limit 5,5

  • ostGreSQL 的做法:

  • select * from t_data limit 5 offset 5

  • MongoDB 的做法:

  • db.t_data.find().limit(5).skip(5);

  • 尽管每种数据库的语法不尽相同,通过一些开发框架封装的接口,我们可以不需要熟悉这些差异。如 SpringData 提供的分页接口:


public interface PagingAndSortingRepository  extends CrudRepository {   Page findAll(Pageable pageable);}
复制代码


这样看来,开发一个分页的查询功能是非常简单的。


然而万事皆不可能尽全尽美,尽管上述的数据库、开发框架提供了基础的分页能力,在面对日益增长的海量数据时却难以应对,一个明显的问题就是查询性能低下!


那么,面对千万级、亿级甚至更多的数据集时,分页功能该怎么实现?


下面,我以 MongoDB 作为背景来探讨几种不同的做法。

二、传统方案

就是最常规的方案,假设 我们需要对文章 articles 这个表(集合) 进行分页展示,一般前端会需要传递两个参数:


  • 页码(当前是第几页)

  • 页大小(每页展示的数据个数)

  • 按照这个做法的查询方式,如下图所示:

  • 因为是希望最后创建的文章显示在前面,这里使用了_id 做降序排序。

  • 其中红色部分语句的执行计划如下:


{  "queryPlanner" : {    "plannerVersion" : 1,    "namespace" : "appdb.articles",    "indexFilterSet" : false,    "parsedQuery" : {      "$and" : []    },    "winningPlan" : {      "stage" : "SKIP",      "skipAmount" : 19960,      "inputStage" : {        "stage" : "FETCH",        "inputStage" : {          "stage" : "IXSCAN",          "keyPattern" : {            "_id" : 1          },          "indexName" : "_id_",          "isMultiKey" : false,          "direction" : "backward",          "indexBounds" : {            "_id" : [               "[MaxKey, MinKey]"            ]         ...}
复制代码


可以看到随着页码的增大,skip 跳过的条目也会随之变大,而这个操作是通过 cursor 的迭代器来实现的,对于 cpu 的消耗会比较明显。


而当需要查询的数据达到千万级及以上时,会发现响应时间非常的长,可能会让你几乎无法接受!


或许,假如你的机器性能很差,在数十万、百万数据量时已经会出现瓶颈

三、改良做法

既然传统的分页方案会产生 skip 大量数据的问题,那么能否避免呢?答案是可以的。


改良的做法为:


  1. 选取一个唯一有序的关键字段,比如 _id,作为翻页的排序字段;

  2. 每次翻页时以当前页的最后一条数据_id 值作为起点,将此并入查询条件中。


如下图所示:



修改后的语句执行计划如下:


{  "queryPlanner" : {    "plannerVersion" : 1,    "namespace" : "appdb.articles",    "indexFilterSet" : false,    "parsedQuery" : {      "_id" : {        "$lt" : ObjectId("5c38291bd4c0c68658ba98c7")      }    },    "winningPlan" : {      "stage" : "FETCH",      "inputStage" : {        "stage" : "IXSCAN",        "keyPattern" : {          "_id" : 1        },        "indexName" : "_id_",        "isMultiKey" : false,        "direction" : "backward",        "indexBounds" : {          "_id" : [             "(ObjectId('5c38291bd4c0c68658ba98c7'), ObjectId('000000000000000000000000')]"          ]      ...}
复制代码


可以看到,改良后的查询操作直接避免了昂贵的 skip 阶段,索引命中及扫描范围也是非常合理的!


性能对比


为了对比这两种方案的性能差异,下面准备了一组测试数据。


测试方案


准备 10W 条数据,以每页 20 条的参数从前往后翻页,对比总体翻页的时间消耗


db.articles.remove({});var count = 100000; var items = [];for(var i=1; i<=count; i++){   var item = {    "title": "论年轻人思想建设的重要性-" + i,    "author" : "王小兵-" + Math.round(Math.random() * 50),    "type" : "杂文-" + Math.round(Math.random() * 10) ,    "publishDate" : new Date(),  } ;  items.push(item);    if(i%1000==0){    db.test.insertMany(items);    print("insert", i);     items = [];  }}
复制代码


传统翻页脚本


function turnPages(pageSize, pageTotal){   print("pageSize:", pageSize, "pageTotal", pageTotal)   var t1 = new Date();  var dl = [];   var currentPage = 0;  //轮询翻页  while(currentPage &lt; pageTotal){      var list = db.articles.find({}, {_id:1}).sort({_id: -1}).skip(currentPage*pageSize).limit(pageSize);     dl = list.toArray();      //没有更多记录     if(dl.length == 0){         break;     }     currentPage ++;     //printjson(dl)  }   var t2 = new Date();   var spendSeconds = Number((t2-t1)/1000).toFixed(2)  print("turn pages: ", currentPage, "spend ", spendSeconds, ".")   }
复制代码


改良翻页脚本


function turnPageById(pageSize, pageTotal){   print("pageSize:", pageSize, "pageTotal", pageTotal)   var t1 = new Date();   var dl = [];  var currentId = 0;  var currentPage = 0;   while(currentPage ++ &lt; pageTotal){       //以上一页的ID值作为起始值     var condition = currentId? {_id: {$lt: currentId}}: {};     var list = db.articles.find(condition, {_id:1}).sort({_id: -1}).limit(pageSize);     dl = list.toArray();      //没有更多记录     if(dl.length == 0){         break;     }      //记录最后一条数据的ID     currentId = dl[dl.length-1]._id;  }   var t2 = new Date();   var spendSeconds = Number((t2-t1)/1000).toFixed(2)  print("turn pages: ", currentPage, "spend ", spendSeconds, ".")    }
复制代码


以 100、500、1000、3000 页数的样本进行实测,结果如下:


可见,当页数越大(数据量越大)时,改良的翻页效果提升越明显!


这种分页方案其实采用的就是时间轴(TImeLine)的模式,实际应用场景也非常的广,比如 Twitter、微博、朋友圈动态都可采用这样的方式。


而同时除了上述的数据库之外,HBase、ElasticSearch 在 Range Query 的实现上也支持这种模式。

四、完美的分页

时间轴(TimeLine)的模式通常是做成“加载更多”、上下翻页这样的形式,但无法自由的选择某个页码。


那么为了实现页码分页,同时也避免传统方案带来的 skip 性能问题,我们可以采取一种折中的方案。


这里参考 Google 搜索结果页作为说明:


通常在数据量非常大的情况下,页码也会有很多,于是可以采用页码分组的方式。


以一段页码作为一组,每一组内数据的翻页采用 ID 偏移量 + 少量的 skip 操作实现


具体的操作如下图所示:



实现步骤


  1. 对页码进行分组(groupSize=8, pageSize=20),每组为 8 个页码;

  2. 提前查询 end_offset,同时获得本组页码数量:

  3. db.articles.find({ _id: { $lt: start_offset } }).sort({_id: -1}).skip(20*8).limit(1)

  4. 分页数据查询以本页组 start_offset 作为起点,在有限的页码上翻页(skip),由于一个分组的数据量通常很小(8*20=160),在分组内进行 skip 产生的代价会非常小,因此性能上可以得到保证。

小结

随着物联网,大数据业务的白热化,一般企业级系统的数据量也会呈现出快速的增长。而传统的数据库分页方案在海量数据场景下很难满足性能的要求。


在本文的探讨中,主要为海量数据的分页提供了几种常见的优化方案(以 MongoDB 作为实例),并在性能上做了一些对比,旨在提供一些参考。


本文转载自华为云开发者社区。


2020-01-15 15:351421

评论

发布
暂无评论
发现更多内容

一文简述:容灾等级&保护程度

穿过生命散发芬芳

容灾 5月月更

全新升级!阿里巴巴2022最新Spring源码全家桶全彩笔记开源

Java全栈架构师

spring 源码 程序员 面试 程序人生

从相亲来看Flutter 的 StatefulWidget 和 StatelessWidget

岛上码农

flutter ios开发 安卓开发 跨平台应用 5月月更

覆盖 70% 核心业务,ShardingSphere 如何成为喜马拉雅架构演进的催化剂

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

做不好资产清点的网络安全防护都是耍流氓!

青藤云安全

青藤参与编写的《数据安全法》实施参考(第一版)发布

青藤云安全

干货| 四种渲染到底是啥?终于有人讲明白了!(上)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

Collections和Objects的使用注意

zarmnosaj

5月月更

druid 源码阅读(四)返回一个连接

爱晒太阳的大白

5月月更

青藤正式加入微软MAPP计划

青藤云安全

如何使用Python实现图像融合及加法运算

华为云开发者联盟

Python OpenCV 图像处理 图像融合 加法运算

西门子PLC设备如何接入AIRIOT物联网低代码平台 ?

AIRIOT

物联网, PLC 低代码开发 低代码平台

福昕软件与神州数码达成中国区分销合作

联营汇聚

引领创新!青藤入选“网信自主创新尖锋企业”

青藤云安全

如何设计产品帮助中心?从这几点出发

小炮

周日直播,龙蜥社区等8位专家在线报告 | 2022大学生操作系统大赛培训会

OpenAnolis小助手

操作系统 人才培养 大学生 龙蜥社区

即时通讯安全篇(九):为什么要用HTTPS?深入浅出,探密短连接的安全性

JackJiang

https 即时通讯 ssl im开发

使用声网 SDK 为Android APP添加视频直播

声网

android 教程 视频直播

[数据分析实践]-音频分析-BirdCLE-2

浩波的笔记

人工智能 机器学习 数据分析

企评家 | 每日互动股份有限公司成长性评价简介

企评家

企评家,为沪深主板企业成长性评价

企评家

最「难搞」的英伟达也开源了,苹果会是下一个吗?

腾源会

开源 英伟达 苹果 腾源会

不用PyScript,网页端运行的Python编辑器

Alexads

Python 代码编辑器

技术创新!青藤威胁检测论文入选国家中文核心期刊

青藤云安全

论文 威胁检测

面向CV编程:COPY了别人文章中的代码,想让代码能像作者一样跑通,应该注意什么呢?怎样才能让代码愉快地跑起来呢

迷彩

读书笔记 高效工作 程序员 个人思考 5月月更

【愚公系列】2022年05月 二十三种设计模式(十三)-职责链模式(Chain of Responsibility Pattern)

愚公搬代码

5月月更

Redis「2」缓存一致性与异常处理

Samson

Redis 核心技术与实战 学习成长 5月月更

基于STM32+华为云IOT设计智能称重系统

华为云开发者联盟

物联网 传感器 stm32 华为云IoT平台 智能称重系统

Node.js可以用来做什么事?

小学僧

node.js 前端 5月月更

Maven 项目

Emperor_LawD

maven 5月月更

druid源码学习四-多线程之锁探究

Nick

Apache Druid 锁机制 多线程安全

海量数据的分页怎么破?_行业深度_华为云开发者联盟_InfoQ精选文章