实例讲解临时处理去重 80w 数据时夯死现象

2026-04-24 08:01:55

近日，在对一张百万数据的业务表进行去重时，去重操作竟然夯住了。下面就来简单回忆一下。

1、查询业务表数据量，查看到总共有200多w条

SQL> select count(*) from tb_bj_banker_etl;

2552381

2、查询表内应该去掉的重复数据量，共80多w条

SQL> select count(*) from tb_bj_banker_etl where (id) in (select id from tb_bj_banker_etl group by id having count(*)>1) and rowid not in(select max(rowid) from tb_bj_banker_etl group by id having count(*)>1);

830099

3、于是，在晚上下班前，执行了下面的语句脚本，为了去重

SQL> delete from tb_bj_banker_etl where(id) in (select id from tb_bj_banker_etl group by id having count(*)>1) and rowid not in(select max(rowid) from tb_bj_banker_etl group by id having count(*)>1);

SQL> commit;

4、第二天，到达现场时，发现PL/SQL Developer工具中昨天晚上执行的语句仍在执行中

首先察觉，80多w的去重数据跑了一个晚上也没跑完?这肯定是哪里出了问题?

怀疑有锁表。

于是查询是否有锁表的用户。

SELECT
 A.OWNER,            --OBJECT所属用户
 A.OBJECT_NAME,         --OBJECT名称
 B.XIDUSN,
 B.XIDSLOT,
 B.XIDSQN,
 B.SESSION_ID,          --锁表用户的session
 B.ORACLE_USERNAME,       --锁表用户的Oracle用户名
 B.OS_USER_NAME,         --锁表用户的操作系统登陆用户名
 B.PROCESS,
 B.LOCKED_MODE,
 C.MACHINE,           --锁表用户的计算机名称
 C.STATUS,            --锁表状态
 C.SERVER,
 C.SID,
 C.SERIAL#,
 C.PROGRAM            --锁表用户所用的数据库管理工具
FROM
 ALL_OBJECTS A,
 V$LOCKED_OBJECT B,
 SYS.GV_$SESSION C
WHERE
 A.OBJECT_ID = B.OBJECT_ID
 AND B.PROCESS = C.PROCESS
ORDER BY 1,2

在下面结果中可以看到，锁表的只是去重语句的发起会话，并没有其它用户造成锁表，这说明语句仍然在执行嘛?带着疑问，开始尝试解决。

1 BJHYL tb_bj_banker_ETL 15 18 9000 913 BJHYL Administrator 4036:972 3 WORKGROUP\BACKDB ACTIVE DEDICATED 913 3381 plsqldev.exe

2 BJHYL tb_bj_banker_ETL 15 18 9000 913 BJHYL Administrator 4036:972 3 WORKGROUP\BACKDB INACTIVE DEDICATED 649 41791 plsqldev.exe

3 BJHYL tb_bj_banker_ETL 15 18 9000 913 BJHYL Administrator 4036:972 3 WORKGROUP\BACKDB INACTIVE DEDICATED 817 27777 plsqldev.exe

4 BJHYL tb_bj_banker_ETL 15 18 9000 913 BJHYL Administrator 4036:972 3 WORKGROUP\BACKDB INACTIVE DEDICATED 841 1981 plsqldev.exe

5、采用分批次，解决去重夯住问题

由于直接去重无法顺利进行，于是想到了分批次去重的方法，试一下。

第一次：
delete from tb_bj_banker_etl where(id) in (select id from tb_bj_banker_etl group by id having count(*)>1) and rowid not in(select max(rowid) from tb_bj_banker_etl group by id having count(*)>1) and rownum<=100000;
commit; 

第二次：
delete from tb_bj_banker_etl where(id) in (select id from tb_bj_banker_etl group by id having count(*)>1) and rowid not in(select max(rowid) from tb_bj_banker_etl group by id having count(*)>1) and rownum<=100000;
commit; 

。。。。。。。
。。。。。。。
。。。。。。。 

第八次：
delete from tb_bj_banker_etl where(id) in (select id from tb_bj_banker_etl group by id having count(*)>1) and rowid not in(select max(rowid) from tb_bj_banker_etl group by id having count(*)>1);
commit;

结果：通过将80多万数据划分成以10w数据为单次进行去重操作，总共用时140多秒，完成了去重80万数据的目的。但为何直接处理出现夯死情况，有待后续跟踪分析。

以上就是临时处理去重80w数据时夯死现象的全部过程，希望可以帮到大家。

SQL学习笔记五去重，给新加字段赋值的方法

去掉数据重复增加两个字段 alter TABLE T_Employee Add FSubCompany VARchar(20); ALTER TABLE T_Employee ADD FDepartment VARCHAR(20); 给新加的字段赋值 UPDATE T_Employee SET FSubCompany='Beijing',FDepartment='Development' where FNumber='DEV001'; UPDATE T_Employee SET FSubCom
SQL分组排序去重复的小实例

复制代码代码如下: SELECT *FROM ( SELECT userid, classid, remark, ROW_NUMBER () OVER ( PARTITION BY userid, classid ORDER BY addtime DESC
浅谈sql数据库去重

关于sql去重,我简单谈一下自己的简介,如果各位有建议或有不明白的欢迎多多指出. 关于sql去重最常见的有两种方式:DISTINCT和ROW_NUMBER(),当然了ROW_NUMBER()除了去重还有很多其他比较重要的功能,一会我给大家简单说说我自己在实际中用到的. 假如有张UserInfo表,如下图: 现在我们要去掉完全重复的数据:SELECT DISTINCT * FROM dbo.UserInfo结果如下图: 但是现在有个新的需求,要把名字为'张三'的去重,也就是相同名字的只要一条数
实例讲解临时处理去重 80w 数据时夯死现象

近日,在对一张百万数据的业务表进行去重时,去重操作竟然夯住了.下面就来简单回忆一下. 1.查询业务表数据量,查看到总共有200多w条 SQL> select count(*) from tb_bj_banker_etl; 2552381 2.查询表内应该去掉的重复数据量,共80多w条 SQL> select count(*) from tb_bj_banker_etl where (id) in (select id from tb_bj_banker_etl group by id havi
实例讲解Python爬取网页数据

一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.firefoxchina.cn/?from=worldindex') True 实例:使用脚本打开一个网页. 所有Python程序的第一行都应以#!python开头,它告诉计算机想让Python来执行这个程序.(我没带这行试了试,也可以,可能这是一种规范吧) 1.从sys.argv读取命令行参数:打开一个新的文
Python MongoDB 插入数据时已存在则不执行，不存在则插入的解决方法

本文实例讲述了Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法.分享给大家供大家参考,具体如下: 前言: 想把QQ日志爬虫(Python)爬下来的日志保存到 MongoDB 里面. 但 insert 的时候报错: E11000 duplicate key error collection: QQ.Blog index: _id_ dup key: { : "965464518_1301232446" } 后来知道错误的原因是:插入的数据和已有数据的 ID
Python读取和处理文件后缀为.sqlite的数据文件(实例讲解)

最近在弄一个项目分析的时候,看到有一个后缀为".sqlite"的数据文件,由于以前没怎么接触过,就想着怎么用python来打开并进行数据分析与处理,于是稍微研究了一下. SQLite是一款非常流行的关系型数据库,由于它非常轻盈,因此被大量应用程序采用. 像csv文件一样,SQLite可以将数据存储于单个数据文件,以便方便的分享给其他人员.许多编程语言都支持SQLite数据的处理,python语言也不例外. sqlite3是python的一个标准库,可以用于处理SQLite数据库. 用s
jQuery+Ajax+PHP+Mysql实现分页显示数据实例讲解

本文使用jQuery,结合PHP和Mysql,通过实例讲解如何实现Ajax数据加载效果. HTML <div id="list"> <ul></ul> </div> <div id="pagecount"></div> 页面中,#list用来展示数据列表,包括本例要展示的商品图片和标题,#pagecount用来展示分页条,即本例中的上一页.下一页. 当然,别忘了,在head中预先载入jquery
Node.js学习之TCP/IP数据通讯(实例讲解)

1.使用net模块实现基于TCP的数据通讯提供了一个net模块,专用于实现TCP服务器与TCP客户端之间的通信 1.1创建TCP服务器在Node.js利用net模块创建TCP服务器 var server = net.createServer([options],[connectionListener]) //options:false当TCP服务器接收到客户端发送的一个FIN包时将会回发一个FIN包 true当TCP服务器接收到客户端发送的一个FIN包时将不会回发FIN包,这使得TCP服务器
JS设计模式之数据访问对象模式的实例讲解

引言 HTML5 提供了两种在客户端存储数据的新方法:localStorage.sessionStorage,他们是Web Storage API 提供的两种存储机制,区别在于前者属于永久性存储,而后者是局限于当前窗口的数据传递,存储在其中的数据会在当前会话结束时被删除.localStorage.sessionStorage的具体内容在这里就不多做介绍了,我们主要探讨一下在实际开发中怎样合理使用他们. 问题大部分网站会将一些数据(如:用户Token)存储在前端,用来实现页面间的传值,对于一些大
.net core2.0下使用Identity改用dapper存储数据(实例讲解)

前言. 已经好多天没写博客了,鉴于空闲无聊之时又兴起想写写博客,也当是给自己做个笔记.过了这么些天,我的文笔还是依然那么烂就请多多谅解了.今天主要是分享一下在使用.net core2.0下的实际遇到的情况.在使用webapi时用了identity做用户验证.官方文档是的是用EF存储数据来使用dapper,因为个人偏好原因所以不想用EF.于是乎就去折腾.改成使用dapper做数据存储.于是就有了以下的经验. 一.使用Identity服务先找到Startup.cs 这个类文件找到 Configu
jxl 导出数据到excel的实例讲解

优点: Jxl对中文支持非常好,操作简单,方法看名知意. Jxl是纯javaAPI,在跨平台上表现的非常完美,代码可以再windows或者Linux上运行而无需重新编写支持Excel 95-2000的所有版本(网上说目前可以支持Excel2007了,还没有尝试过) 生成Excel 2000标准格式支持字体.数字.日期操作能够修饰单元格属性支持图像和图表,但是这套API对图形和图表的支持很有限,而且仅仅识别PNG格式. 缺点: 效率低,图片支持不完善,对格式的支持不如POI强大案例: S
ajax请求后台接口数据与返回值处理js的实例讲解

ajax的代码,用的是jquery的 ajax: $.ajax({ url: "/test.php",//后台提供的接口 type: "post", //请求方式是post data:{"type":"1", //这是你要传给后台的data值 "t":"c4552111" }, dataType: "json", //数据类型是json型 success: funct

实例讲解临时处理去重 80w 数据时夯死现象

相关推荐

随机推荐