大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Oracle 19c 迁移遇到大容量 lob 表怎么办?

  • 2020-08-02
  • 本文字数:2186 字

    阅读完需:约 7 分钟

Oracle 19c迁移遇到大容量lob表怎么办?

本文由 dbaplus 社群授权转载。

背景

从 Oracle 数据库官方服务支持生命周期表,我们可以清晰看到 Oracle 11g 已过主支持生命周期,2020 年后不再支持。基于这个背景,某客户的应用系统数据库将从 IBM AIX 小型机环境迁移到某国产数据库一体机,同时数据库版本从 11g 直接升级为 19c。


LOB 字段带来的问题

经过分析,此数据库的数据量不大,只有区区 3TB,同时由于停机时间非常充分,可以考虑采取数据泵 datapump 的方式实现数据迁移。但是在仔细查看后,发现数据库中有个单表 2TB,仔细再查 2TB 基本全是 lob 字段,且不是分区表,这个问题就有点棘手了。



根据以往的经验来看,这种大容量 TB 级的 lob 表,使用以往常规导出的方式,大概率会报 Ora-01555。



稍稍测试一下,果不其然。

解决方法

一般的方法可以修改一下 undo_retention 参数以及 lob 字段的 retention 设置来解决,大致如下:


alter system set undo_retention=7200 scope=both;alter table table_name MODIFY LOB(col_name)(retention);
复制代码


然而当前的数据库是一个生产环境,参数修改这样的风险工程还是少做为妙,因此需要另辟蹊径。既然 ORA-01555 是由于长时间查询引起,我们可以尝试减少倒出的数据量。


最后决定用 Expdp 的 Query 试一试,但是 2TB 的数据量的单表 lob 还是第一次,那么根据哪个条件进行 Query 导出呢?


首先需考虑到是根据主键和索引列进行导出,这样的效率会比较高。确认后,问题又来了,索引列不满足均匀分批条件,故这个思路走不通了。


要怎样才能均分呢?看来只能用 Rowid 试试看。


首先 Rowid 是用于定位数据库中一条记录的一个相对唯一地址值。通常情况下,该值在该行数据插入到数据库表时即被确定且唯一。Rowid 是一个伪列,它并不实际存在于实体表中。


它是 Oracle 在读取表中数据行时,根据每一行数据的物理地址信息编码而成的一个伪列。所以根据一行数据的 Rowid 能找到一行数据的物理地址信息,从而快速地定位到数据行,而且使用 Rowid 来进行单记录定位速度是最快的。



上图是 Rowid 的结构图,主要包含 4 个部分:


  • 第一部分 6 位表示:该行数据所在的数据对象的 Data_object_id

  • 第二部分 3 位表示:该行数据所在的相对数据文件的 id

  • 第三部分 6 位表示:该数据行所在的数据块的编号

  • 第四部分 3 位表示:该行数据的行的编号


一个扩展 Rowid 采用 10 个 byte 来存储,共 80bit,其中 obj#32bit, rfile#10bit, block#22bit, row#16bit。所以相对文件号不能超过 1023,也就是一个表空间的数据文件不能超过 1023 个(不存在文件号为 0 的文件),一个 Datafile 只能有 2^22=4M 个 block,一个 block 中不能超过 2^16=64K 行数据的由来。


了解了 Rowid 后,怎么进行均匀分批呢?我们可以利用 Oracle 提供的 DBMS_ROWID 包。



导出脚本修改如下



参数说明


  • Content=DATA_ONLY:只导出表中的数据,导出会更快,导入时也更快,index 之类的对象在 data 导入后单独处理;

  • COMPRESSION=DATA_ONLY:数据量太大,节省空间,传输到新环境时效更高;

  • Query=“……”:将表数据根据条件进行分批导出全部数据。


为什么选用 rowid_block_number 呢?因为导出这个大表的需求下,Object_id 就一个,分不了批次,Fileid 只有 150 个,BLOCK_ID 是 126924 个,ROW_NUMBER 是 19,数据量数值进行 Mod 取余分批的差异就越小,所以使用 rowid_block_number。使用这个方法后还是很顺利地导出了数据。



将参数文件复制并修改取模的余数值,分为十个进程并发执行。查看全部导出日志,每个批次耗时相差不大,满足均匀分批导出的计划。


小结

遇到超大 lob 表导出需要,一般的思路是尽可能通过分区或者过滤查询减少单表数据导出的数据量,减少整体耗时,办法可以分为:


1、查看是否是分区表,分区表的话按分区导出


userid=' / as sysdba'directory=DMPdumpfile=export.dmplogfile=export.logCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYtables=(onwer.tbale_name:part_name)
复制代码


2、业务沟通,是否存在均匀分布的字段值,按照字段值分批导出,例如


USERID=' / as sysdba'directory= DMPCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYdumpfile=export.dmplogfile=export.logtables=owner.table_nameQUERY="WHERE column_name > 100000
复制代码


3、不满足以上的都可以使用本文 rowid 方式进行导出


Cat exp_owner_table_seq.parUSERID='/ as sysdba'directory= DMPCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYdumpfile=export.dmplogfile=export.logtables=owner.table_nameQUERY="wheremod(dbms_rowid.rowid_block_number(rowid),10)=1"
复制代码


作者介绍


梁铭图,新炬网络首席架构师,十多年数据库运维、数据库设计、数据治理以及系统规划建设经验,拥有 Oracle OCM、Togaf 企业架构师(鉴定级)、IBM CATE 等认证,曾获 dbaplus 年度 MVP 以及华为云 MVP 等荣誉,并参与数据资产管理国家标准的编写工作。在数据库运维管理和架构设计、运维体系规划、数据资产管理方面有深入研究。


王涛,新炬网络资深数据库专家,长期服务于运营商、金融、制造业及政企客户。扎根客户一线,多次主导运营商数据库大版本升级,擅长数据割接及同步技术的研究和应用,割接实战经验丰富。


原文链接


https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650792712&idx=2&sn=742813cf08dccc3eede90b5e477ca083&chksm=f3f9569dc48edf8bf9dd0af84d5d768755b44f98b7e188c2553187aa5f7bbcf507f2c7530b32&scene=27#wechat_redirect


2020-08-02 10:002391

评论

发布
暂无评论
发现更多内容

软件要想做的好,测试必定少不了

华为云开发者联盟

测试 开发 华为云 企业号十月 PK 榜

JUC 浅析(四)

Andy

ACL访问控制列表 基础、创建ACL访问控制列表的两种方式、配置ACL访问控制列表规则、修改ACL规则的默认步长。子网掩码、反掩码、通配符掩码的区别和作用。

Python-派大星

10月月更

要努力,但也别焦虑

源字节1号

程序人生

FlyFish一周年,社区大咖邀你共话开源!

云智慧AIOps社区

低代码 可视化 数据可视化 大屏可视化 无代码

订单中心架构设计与实践

小小怪下士

Java 程序员 系统架构 架构设计

“程”风破浪的开发者|学习中的境界

林冲

学习方法 “程”风破浪的开发者

前端面试中小型公司都考些什么

loveX001

JavaScript

阿里云云边一体容器架构创新论文被云计算顶会 ACM SoCC 录用

阿里巴巴云原生

阿里云 云原生 容器服务

华为数通HCIA小型拓扑综合实验,运用OSPF动态路由协议、ACL访问控制列表,交换机生成树协议,修改交换机根桥、交换机划分vlan、链路聚合等相关数通技术、NAT地址转换以及NAT网络地址转换的配置

Python-派大星

10月月更

对话创始人:团队研发效能应该如何管理和度量?

LigaAI

团队管理 敏捷开发 研发管理 研发效能 企业号十月PK榜

教你处理数仓慢SQL常见定位问题

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

手把手教你从安装CentOS7.4镜像开始,搭建IoT视频监控系统

华为云开发者联盟

后端 开发 华为云 企业号十月 PK 榜

云小课|MRS基础原理之Hudi介绍

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

京东云开发者|京东云RDS数据迁移常见场景攻略

京东科技开发者

MySQL 数据同步 数据迁移 云迁移 数据订阅

NAT基础:NAT技术原理,静态NAT、动态NAT、NAPT、Easy IP、NAT Server的原理,以及各NAT的配置方法和转换示例。

Python-派大星

10月月更

报名倒计时1天!平头哥、中科院软件所PLCT实验室等技术专家解读最新RISC-V技术

OpenAnolis小助手

报名 risc-v 云栖大会 Workshop 龙蜥峰会

KubeVela 插件指南:轻松扩展你的平台专属能力

阿里巴巴云原生

阿里云 开源 容器 云原生 KubeVela

深入理解JS作用域链与执行上下文

loveX001

JavaScript

2022最新CSS高频面试题指南

CoderBin

CSS 前端 面试题 秋招 10月月更

从清华大学到苏州经贸,双一流和普通高校都在使用的数据科学教学实训平台

ModelWhale

大数据 人才培养 数据竞赛 实训 教学

软件测试丨接口测试该怎么做?持证上岗的Charles,可以帮你做什么?

测试人

软件测试 接口测试 charles 测试开发

在世界舞台MBBF一骑绝尘:永远更快一步的北京5G是怎样炼成的?

脑极体

如何提升研发效能?我们先从指标谈起

Kyligence

数据分析 指标管理

36氪|元年科技发布新版数字化PaaS平台,更新多个组件

元年技术洞察

方舟 PaaS 中台战略 企业数字化

专访韩向东|元年科技:专业与技术并重,赋能财务数字化转型

元年技术洞察

数字化转型 财务数字化

数字化时代,企业如何创新自己的客户服务

Baklib

JUC 浅析(三)

Andy

区块链≠绿色?波卡或成Web3“生态环保”标杆

One Block Community

区块链 环保 波卡生态

阿里是如何使用分布式架构的?阿里内部学习手册分享

Java全栈架构师

架构 分布式 微服务 后端 高并发

27位技术实战派负责人齐聚 深聊降本增效 你一定不想错过!

阿里技术

云计算 云原生 云栖大会 降本增效

Oracle 19c迁移遇到大容量lob表怎么办?_数据库_dbaplus社群_InfoQ精选文章