写点什么

海量数据的分页怎么破?

  • 2020-01-15
  • 本文字数:3161 字

    阅读完需:约 10 分钟

海量数据的分页怎么破?

一、背景

分页应该是极为常见的数据展现方式了,一般在数据集较大而无法在单个页面中呈现时会采用分页的方法。


各种前端 UI 组件在实现上也都会支持分页的功能,而数据交互呈现所相应的后端系统、数据库都对数据查询的分页提供了良好的支持。


以几个流行的数据库为例:


查询表 t_data 第 2 页的数据(假定每页 5 条)


  • MySQL 的做法:

  • select * from t_data limit 5,5

  • ostGreSQL 的做法:

  • select * from t_data limit 5 offset 5

  • MongoDB 的做法:

  • db.t_data.find().limit(5).skip(5);

  • 尽管每种数据库的语法不尽相同,通过一些开发框架封装的接口,我们可以不需要熟悉这些差异。如 SpringData 提供的分页接口:


public interface PagingAndSortingRepository  extends CrudRepository {   Page findAll(Pageable pageable);}
复制代码


这样看来,开发一个分页的查询功能是非常简单的。


然而万事皆不可能尽全尽美,尽管上述的数据库、开发框架提供了基础的分页能力,在面对日益增长的海量数据时却难以应对,一个明显的问题就是查询性能低下!


那么,面对千万级、亿级甚至更多的数据集时,分页功能该怎么实现?


下面,我以 MongoDB 作为背景来探讨几种不同的做法。

二、传统方案

就是最常规的方案,假设 我们需要对文章 articles 这个表(集合) 进行分页展示,一般前端会需要传递两个参数:


  • 页码(当前是第几页)

  • 页大小(每页展示的数据个数)

  • 按照这个做法的查询方式,如下图所示:

  • 因为是希望最后创建的文章显示在前面,这里使用了_id 做降序排序。

  • 其中红色部分语句的执行计划如下:


{  "queryPlanner" : {    "plannerVersion" : 1,    "namespace" : "appdb.articles",    "indexFilterSet" : false,    "parsedQuery" : {      "$and" : []    },    "winningPlan" : {      "stage" : "SKIP",      "skipAmount" : 19960,      "inputStage" : {        "stage" : "FETCH",        "inputStage" : {          "stage" : "IXSCAN",          "keyPattern" : {            "_id" : 1          },          "indexName" : "_id_",          "isMultiKey" : false,          "direction" : "backward",          "indexBounds" : {            "_id" : [               "[MaxKey, MinKey]"            ]         ...}
复制代码


可以看到随着页码的增大,skip 跳过的条目也会随之变大,而这个操作是通过 cursor 的迭代器来实现的,对于 cpu 的消耗会比较明显。


而当需要查询的数据达到千万级及以上时,会发现响应时间非常的长,可能会让你几乎无法接受!


或许,假如你的机器性能很差,在数十万、百万数据量时已经会出现瓶颈

三、改良做法

既然传统的分页方案会产生 skip 大量数据的问题,那么能否避免呢?答案是可以的。


改良的做法为:


  1. 选取一个唯一有序的关键字段,比如 _id,作为翻页的排序字段;

  2. 每次翻页时以当前页的最后一条数据_id 值作为起点,将此并入查询条件中。


如下图所示:



修改后的语句执行计划如下:


{  "queryPlanner" : {    "plannerVersion" : 1,    "namespace" : "appdb.articles",    "indexFilterSet" : false,    "parsedQuery" : {      "_id" : {        "$lt" : ObjectId("5c38291bd4c0c68658ba98c7")      }    },    "winningPlan" : {      "stage" : "FETCH",      "inputStage" : {        "stage" : "IXSCAN",        "keyPattern" : {          "_id" : 1        },        "indexName" : "_id_",        "isMultiKey" : false,        "direction" : "backward",        "indexBounds" : {          "_id" : [             "(ObjectId('5c38291bd4c0c68658ba98c7'), ObjectId('000000000000000000000000')]"          ]      ...}
复制代码


可以看到,改良后的查询操作直接避免了昂贵的 skip 阶段,索引命中及扫描范围也是非常合理的!


性能对比


为了对比这两种方案的性能差异,下面准备了一组测试数据。


测试方案


准备 10W 条数据,以每页 20 条的参数从前往后翻页,对比总体翻页的时间消耗


db.articles.remove({});var count = 100000; var items = [];for(var i=1; i<=count; i++){   var item = {    "title": "论年轻人思想建设的重要性-" + i,    "author" : "王小兵-" + Math.round(Math.random() * 50),    "type" : "杂文-" + Math.round(Math.random() * 10) ,    "publishDate" : new Date(),  } ;  items.push(item);    if(i%1000==0){    db.test.insertMany(items);    print("insert", i);     items = [];  }}
复制代码


传统翻页脚本


function turnPages(pageSize, pageTotal){   print("pageSize:", pageSize, "pageTotal", pageTotal)   var t1 = new Date();  var dl = [];   var currentPage = 0;  //轮询翻页  while(currentPage &lt; pageTotal){      var list = db.articles.find({}, {_id:1}).sort({_id: -1}).skip(currentPage*pageSize).limit(pageSize);     dl = list.toArray();      //没有更多记录     if(dl.length == 0){         break;     }     currentPage ++;     //printjson(dl)  }   var t2 = new Date();   var spendSeconds = Number((t2-t1)/1000).toFixed(2)  print("turn pages: ", currentPage, "spend ", spendSeconds, ".")   }
复制代码


改良翻页脚本


function turnPageById(pageSize, pageTotal){   print("pageSize:", pageSize, "pageTotal", pageTotal)   var t1 = new Date();   var dl = [];  var currentId = 0;  var currentPage = 0;   while(currentPage ++ &lt; pageTotal){       //以上一页的ID值作为起始值     var condition = currentId? {_id: {$lt: currentId}}: {};     var list = db.articles.find(condition, {_id:1}).sort({_id: -1}).limit(pageSize);     dl = list.toArray();      //没有更多记录     if(dl.length == 0){         break;     }      //记录最后一条数据的ID     currentId = dl[dl.length-1]._id;  }   var t2 = new Date();   var spendSeconds = Number((t2-t1)/1000).toFixed(2)  print("turn pages: ", currentPage, "spend ", spendSeconds, ".")    }
复制代码


以 100、500、1000、3000 页数的样本进行实测,结果如下:


可见,当页数越大(数据量越大)时,改良的翻页效果提升越明显!


这种分页方案其实采用的就是时间轴(TImeLine)的模式,实际应用场景也非常的广,比如 Twitter、微博、朋友圈动态都可采用这样的方式。


而同时除了上述的数据库之外,HBase、ElasticSearch 在 Range Query 的实现上也支持这种模式。

四、完美的分页

时间轴(TimeLine)的模式通常是做成“加载更多”、上下翻页这样的形式,但无法自由的选择某个页码。


那么为了实现页码分页,同时也避免传统方案带来的 skip 性能问题,我们可以采取一种折中的方案。


这里参考 Google 搜索结果页作为说明:


通常在数据量非常大的情况下,页码也会有很多,于是可以采用页码分组的方式。


以一段页码作为一组,每一组内数据的翻页采用 ID 偏移量 + 少量的 skip 操作实现


具体的操作如下图所示:



实现步骤


  1. 对页码进行分组(groupSize=8, pageSize=20),每组为 8 个页码;

  2. 提前查询 end_offset,同时获得本组页码数量:

  3. db.articles.find({ _id: { $lt: start_offset } }).sort({_id: -1}).skip(20*8).limit(1)

  4. 分页数据查询以本页组 start_offset 作为起点,在有限的页码上翻页(skip),由于一个分组的数据量通常很小(8*20=160),在分组内进行 skip 产生的代价会非常小,因此性能上可以得到保证。

小结

随着物联网,大数据业务的白热化,一般企业级系统的数据量也会呈现出快速的增长。而传统的数据库分页方案在海量数据场景下很难满足性能的要求。


在本文的探讨中,主要为海量数据的分页提供了几种常见的优化方案(以 MongoDB 作为实例),并在性能上做了一些对比,旨在提供一些参考。


本文转载自华为云开发者社区。


2020-01-15 15:351160

评论

发布
暂无评论
发现更多内容

给大家科普下如何加盟自助洗车

共享电单车厂家

自助洗车加盟 自助洗车怎么加盟 如何加盟自助洗车

购买自助洗车机时都要注意哪些

共享电单车厂家

自助洗车机多少钱 自助洗车机价格 自助洗车加盟 购买自助洗车机

网站开发进阶(三十六)String.getBytes()方法中的中文编码问题解决总结

No Silver Bullet

编码 5月月更 getBytes

服务器运维省钱省事省心安全就用行云管家!

行云管家

服务器 行云管家 服务器运维

【国产免费】分布式作业批处理ETL平台TASKCTL变量属性设置

敏捷调度TASKCTL

大数据 DevOps 分布式 自动化运维 TASKCTL

FPGA(3)--VHDL及原理图--4位全加器

爱好编程进阶

程序员 后端开发

实践GoF的23种设计模式:建造者模式

华为云开发者联盟

Go 设计模式 GoF 建造者模式

开家自助洗车房需要投资多少钱

共享电单车厂家

自助洗车加盟 开自助洗车店多少钱 开家自助洗车房

自助洗车加盟都要注意哪些事项

共享电单车厂家

自助洗车加盟 自助洗车机厂家 自助洗车品牌

手把手带你用Zabbix进行操作系统监控

博文视点Broadview

JavaScript class类的基本使用方法你知道吗

CRMEB

揭秘百度智能测试在测试自动生成领域的探索

百度Geek说

测试

墨天轮最受DBA欢迎的数据库技术文档-SQL优化篇

墨天轮

MySQL 数据库 oracle postgresql

Eclipse+Java+Swing实现仓库管理系统

爱好编程进阶

Java 程序员 后端开发

Fluid 0

爱好编程进阶

Java 程序员 后端开发

python好用的函数或库

AIWeker

Python 人工智能 5月月更

全球云服务支出持续攀升,中国云安全市场进入黄金期

行云管家

云计算 网络安全 公有云 云服务 云平台

final的两个重排序规则

爱好编程进阶

程序员 后端开发

中国联通改造 Apache DolphinScheduler 资源中心,实现计费环境跨集群调用与数据脚本一站式访问

白鲸开源

大数据 开源 Apache DolphinScheduler workflow apache 社区

加盟自助洗车需要营业执照吗

共享电单车厂家

自助洗车加盟 加盟自助洗车

Dubbo中的统一契约是如何实现的?

爱好编程进阶

Java 程序员 后端开发

Eclipse+Java+Swing实现企业人事管理系统

爱好编程进阶

Java 程序员 后端开发

龙蜥正式开源 SysOM:百万级实战经验打造!一站式运维管理平台 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 SysOM 系统运维SIG

Github首次开放,一天遭狂转 50w 次,大厂内部不外传的 100 万字 Java 面试手册

爱好编程进阶

Java 程序员 后端开发

第1章-Spring的模块与应用场景

码匠

Java Spring Framework

网站开发进阶(三十三)中文字符编码问题解决总结

No Silver Bullet

异常 5月月更 中文编码

Consul的基本使用与集群搭建

神农写代码

ElasticSearch三节点集群搭建笔记(中心化版本)

爱好编程进阶

程序员 后端开发

GitHub上标星120K,Alibaba官网发布了这份Java全栈知识体系手册

爱好编程进阶

Java 程序员 后端开发

5分钟速览证券行业财富管理转型新趋势

易观分析

证券市场

如何制作网站的在线帮助中心

小炮

帮助中心

海量数据的分页怎么破?_行业深度_华为云开发者联盟_InfoQ精选文章