Linux实现文件内容去重及求交并差集

一、数据去重

日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。

案例如下:

可以看到aaa.txx有3条重复数据

想去掉多余的数据,只保留一条

sort aaa.txt | uniq > bbb.txt

将aaa.txt文件中重复数据去掉,输出到bbb.txt

可以看到bbb.txt文件中只保留了一条数据

二、数据交、并、差

1)、交集(相当于user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2)、并集(相当于 user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3)、差集

user_2019.txt-user_2020.txt

sort user_2019.txt user_2020.txt user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

sort user_2020.txt user_2019.txt user_2019.txt | uniq -u

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 详解Linux系统中虚拟设备文件的各种实用用法

    大家好,我是良许. 大家知道,在 Linux 下,一切皆文件,对于设备文件也是如此.我们在工作的过程中,经常会看到 /dev/null 这个玩意,那它到底是什么呢? 专业地讲,/dev/null 是一个虚拟设备文件.而对程序而言,这些虚拟设备文件则会被当成真实的文件对待.程序可以向这种数据源请求数据,所得到的数据将由操作系统提供.但是,这些数据并不是从磁盘上读取到的,而是由操作系统动态生成的.虚拟设备文件的一个典型例子就是 /dev/zero . 然而,当你想向 /dev/null 写入数据时,

  • linux下如何实现快速拷贝大文件

    拷贝数据 远程拷贝数据的时候,我们一般使用rsync命令,但是如果拷贝大量的小文件,会导致rsync的传输速度慢.使用tar pv lz4打包压缩传输,可以解决这问题,使用这个方法,等同于使用scp.rsync传输大文件. 实测,使用rsync传输1200G,单个文件大小为几十KB~2GB,千兆网卡,需要同时跑6个rsync才能把带宽跑满,每个速度20MB左右,速度波动大.每分钟可以拷贝4.5GB左右. 但是,使用tar pv lz4,跑一个就可以了,而且速度波动小.每分钟可以拷贝6.8GB左右

  • 在Linux系统中使用Vim读写远程文件的命令详解

    大家好,我是良许. 今天我们讨论一个 Vim 使用技巧--用 Vim 读写远程文件.要实现这个目的,我们需要使用到一个叫 netrw.vim 的插件.从 Vim 7.x 开始,netrw.vim 就被设置为默认安装的标准插件了.这个插件允许用户通过 ftp.rcp.scp.http 等协议读写.编辑和浏览远程文件. 设定vim的工作方式(临时) :set (模式信息) :set nu - 显示行号 :set nonu - 取消行号 :set mouse=a - 设定鼠标可用 :set curso

  • Linux文件删除后空间未释放问题详解

    前言 当系统空间使用量过大需要清理空间或者清理某个文件时,有时会出现执行了删除命令之后磁盘空间并没有释放,很多人首次遇到该情况时会比较困惑,在考虑是不是像windows系统的回收站一样,删除只是逻辑删除到回收站一样?其实不然,linux的回收站功能想了解的可以与我沟通或查资料了解一下,也是个比较实用的方法,此处我们主要实践文件删除后空间未释放问题. 1. 实验准备 想模拟该场景的方式很多,主要是实现文件被占用的场景.最简单的方式是拷贝文件,另一个常见方式是对于会编程或shell功底较好的同学可以

  • linux文件管理命令实例分析【显示、查看、统计等】

    本文实例讲述了linux文件管理命令.分享给大家供大家参考,具体如下: 1.显示文件内容 cat  :  显示文件内容 tac  :  倒序显示内容 2.更改文件权限 chmod :更改文件权限 -R     递归改变 chown :更改文件拥有者 -R     递归改变 chgrp :更改文件所属组 -R     递归改变 > chmod 666 1.txt > chown user1 1.txt > chgrp user1 1.txt 3.链接文件 1) 保护源程序 2) 访问方便

  • Linux如何基于AIDE检测文件系统完整性

    一.AIDE AIDE(Advanced Intrusion Detection Environment)是一款针对文件和目录进行完整性对比检查的程序,它被开发成Tripwire的一个替代品. AIDE如何工作 AIDE通过构造指定文件的完整性样本库(快照),作为比对标准,当这些文件发生改动时,其对应的校验值也必然随之变化,AIDE可以识别这些变化从而提醒管理员.AIDE监控的属性变化主要包括:权限.属主.属组.文件大小.创建时间.最后修改时间.最后访问时间.增加的大小以及链接数,并能够使用SH

  • Linux执行可执行文件提示No such file or directory的解决方法

    最近在使用Linux操作系统执行一个可执行文件,结果出现了No such file or directory的提示,表示很疑惑. ./tshrf bash: ./tshref: No such file or directory 查看文件信息,可以看到文件是存在的,并且是可以执行的. -rwxr-xr-x 1 yuan yuan 20581 4月 29 2004 tshref 查阅资料后,原因是系统位数与该可执行文件需要的lib库位数不匹配. 用uname命令打印系统信息,发现系统是64位系统

  • Linux实现文件内容去重及求交并差集

    一.数据去重 日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除. 案例如下: 可以看到aaa.txx有3条重复数据 想去掉多余的数据,只保留一条 sort aaa.txt | uniq > bbb.txt 将aaa.txt文件中重复数据去掉,输出到bbb.txt 可以看到bbb.txt文件中只保留了一条数据 二.数据交.并.差 1).交集(相当于user_

  • Linux 文件内容相关命令使用汇总

    目录 前言 cat 合并文件或查看文件内容 1.简介 2.语法格式 3.参数说明 4.实践操作 more 分页显示文件内容 1.简介 2.语法格式 3.参数说明 4.实践操作 less 分页显示文件内容 1.简介 2.语法格式 3.参数说明 4.实践操作 head 显示文件内容头部 1.简介 2.语法格式 3.参数说明 4.实践操作 tail 显示文件内容尾部 1.简介 2.语法格式 3.参数说明 4.实践操作 tailf 跟踪日志文件 1.简介 diff 比较两个文件的不同 1.简介 2.语法

  • Linux 中清空或删除大文件内容的五种方法

    在 Linux 终端下处理文件时,有时我们想直接清空文件的内容但又不必使用任何Linux命令行编辑器 去打开这些文件.那怎样才能达到这个目的呢?在这篇文章中,我们将介绍几种借助一些实用的命令来清空文件内容的方法. 注意: 由于再Linux中一切皆文件,你需要时刻注意,确保你将要清空的文件不是重要的用户文件或者系统文件.清空重要的系统文件或者配置文件可能会引发严重的应用失败或者系统错误. 提示:在下面的示例中,我们将使用名为 access.log 的文件来作为示例样本. 1. 通过重定向到 Nul

  • Linux中利用grep命令如何检索文件内容详解

    前言 Linux系统中搜索.查找文件中的内容,一般最常用的是grep命令,另外还有egrep命令,同时vi命令也支持文件内容检索.下面来一起看看Linux利用grep命令检索文件内容的详细介绍. 方法如下: 1.搜索某个文件里面是否包含字符串 命令格式:grep "被查找的字符串" filename1 例如: grep "0101034175" /data/transaction.20170118.log 2.在多个文件中检索某个字符串 命令格式: grep &qu

  • 详解在Linux中清空或删除大文件内容的5种方法

    有时,在处理Linux终端中的文件时,您可能希望清除文件的内容,而无需使用任何Linux命令行编辑器打开它.怎么能实现这一目标?在本文中,我们将借助一些有用的命令,通过几种不同的方式清空文件内容. 警告:在我们继续查看各种方法之前,请注意,因为在Linux中一切都是文件,所以必须始终确保要清空的文件不是重要的用户或系统文件.清除关键系统或配置文件的内容可能会导致致命的应用程序/系统错误或故障. 就像刚刚说的,下面是从命令行清除文件内容的方法. 重要说明:出于本文的目的,我们access.log在

  • Linux中使用命令more,less,cat查看文件内容

    Linux中命令cat.more.less均可用来查看文件内容:cat是一次性显示整个文件的内容,还可以将多个文件连接起来显示,它常与重定向符号配合使用,适用于文件内容少的情况:more和less一般用于显示文件内容超过一屏的内容,并且提供翻页的功能.less比more更强大,提供翻页,跳转,查找等命令. 众所周知Linux中命令cat.more.less均可用来查看文件内容,主要区别有: cat是一次性显示整个文件的内容,还可以将多个文件连接起来显示,它常与重定向符号配合使用,适用于文件内容少

  • Linux下查看压缩文件内容的10种方法(小结)

    通常来说,我们查看归档或压缩文件的内容,需要先进行解压缩,然后再查看,比较麻烦.今天给大家介绍 10 不同方法,能够让你轻松地在未解压缩的情况下查看归档或压缩文件的内容. 从技术上讲,查看归档或压缩文件不提前进行解压是不可能的.本文介绍的方法中会将这些压缩文件在后台一个临时目录 /tmp 中进行解压缩.重启系统后,/tmp 目录的内容将被清空. 在进一步讨论之前,这里先解释一下归档和压缩文件. 归档 是将多个文件或文件夹组合成一个文件的过程.在这种情况下,生成的文件没有被压缩. 压缩 是一种将多

  • python修改linux中文件(文件夹)的权限属性操作

    今天生成的对流云团路径图片放在linux下,文件的权限都是rw,没有x,后续的别人的程序调用不了,这里附上对三个属性的简单解释,有不够的欢迎大家补充 Linux的权限不是很细致,只有RWX三种 r(Read,读取):对文件而言,具有读取文件内容的权限:对目录来说,具有浏览目录的权限. w(Write,写入):对文件而言,具有新增,修改,删除文件内容的权限:对目录来说,具有新建,删除,修改,移动目录内文件的权限. x(eXecute,执行):对文件而言,具有执行文件的权限:对目录了来说该用户具有进

  • java web开发中获取tomcat上properties文件内容的方法

    在java web开发的时候经常会用到读取读取或存放文件,这个文件的默认路径在哪里呢?写死在程序里面显然是可以的,但这样子不利于位于,假如有一天项目从window移植到linux,或者保存文件的路径变了,就需要去源代码中查找,进行替换,这样子不仅效率低,而且程序的耦合度也会过高,这里我用了一个properties文件用于存放文件的保存路径,需要保存或者读取都来自己properties所保存的路径. 1.我存放的propeities文件路径 因为linux和window上面的分盘是不一样的,所以我

  • Linux中文件权限目录权限的意义及权限对文件目录的意义

    linux中目录与文件权限的意义 一.文件权限的意义 r:可以读这个文件的具体内容: w:可以编辑这个文件的内容,包括增加删除文件的具体内容: x:文件就具有了可执行的权限-------注意:这里和window不一样,在win中,文件的可执行权限是通过扩展名表现出来的,如exe.bat等,但是在linux中文件的可执行权限是通过这个x决定的,与文件名没有什么关系. 二.目录权限的意义 r:可以查看此目录下的完整文件列表信息. w:可以对此目录下的所有的文件及目录进行相关的更改,也就是可以更改这个

随机推荐