Linux join命令快速实现从大文件中匹配内容

 更新时间:2025年11月11日 14:49:03   作者:fengyehongWorld  
本文介绍了如何使用Linux命令和join命令进行大数据文件的高效匹配,通过对文件进行排序和使用join命令,可以显著提升匹配效率,同时,还讨论了数据准备、文件排序、join命令的应用以及数据整理的方法

一. 作业背景

项目中,每个月都会收集当月的用户支付相关的信息,然后汇总到一个大csv文件中。

作业内容需求:

  • 当月的csv文件共有4000万行数据
  • 客户提供了一个有2万行的文本文件,每一行对应着一个用户的id
  • 现在需要根据2万个用户id去大csv文件中进行检索,将匹配到的数据传给客户。

作业环境需求:

  • 大csv文件中存放在服务器上,因为含有客户敏感信息,只能连接到linux环境上作业
  • 只能使用linux命令来完成

遇到的问题

  • 普通匹配需要的话,直接使用grep命令进行匹配即可
  • 如果需要多次匹配的话,可以写若干个grep命令,然后放到一个bash脚本中批量执行
  • 但是本次目标文件数据量庞大,匹配源文件和待匹配的目标文件数量庞大,通过grep命令的话,会消耗很多时间

解决方式

  • 通过join的方式进行文件匹配可以极大提升匹配效率
  • 需要提前对文件进行排序

二. 数据准备

准备40万条数据

(
  echo "No,姓名,auid,地址"
  seq 1 400000 | awk 'BEGIN{OFS=","} {
      printf "%d,user_name_%09d,auid_%09d,地球%d\n", $1, $1, $1, $1
  }'
) > bigfile.csv

对生成的文件进行二次处理,得到乱序的数据

  • shuf:对文件按照行进行乱序处理,模拟真实的商用数据
  • sed -i '1i 要插入的内容':向第一行插入数据
# 对文件进行乱序处理
grep -v 姓名 bigfile.csv | shuf > shuffled.csv
# 为csv文件添加表头
sed -i '1i No,姓名,auid,地址' shuffled.csv

获取后1千条数据,然后将auid数据输出到一个文件中,模拟客户提供的数据。

tail -n 1000 shuffled.csv | awk -F',' '{print $3}' > auid_list.txt

使用shuf命令随机从auid_list.txt文件中获取1行数据,然后给除了第三个字段的所有字段的前后后添加一个@符号之后,追加到shuffled.csv中,目的是为了模拟有多个auid存在的情况。

  • shuf -n 1 auid_list.txt:从文件中随机获取一条数据
  • tee -a shuffled.csv
    • -a表示追加
    • 将数据打印到控制台上的同时,将数据追加到shuffled.csv
grep $(shuf -n 1 auid_list.txt) shuffled.csv | awk -F',' '{
    OFS = ","
    $1 = "@" $1 "@"
    $2 = "@" $2 "@"
    $4 = "@" $4 "@"
    print
}' | tee -a shuffled.csv
⇩⇩⇩ ⇩⇩⇩
@295178@,@user_name_000295178@,auid_000295178,@地球295178@
  • 可以看到一个auid对应着2条数据
apluser@FengYeHong-HP:0724$ grep -a auid_000295178 shuffled.csv
295178,user_name_000295178,auid_000295178,地球295178
@295178@,@user_name_000295178@,auid_000295178,@地球295178@

三. 数据匹配

3.1 文件排序

sort -k<开始列>[,<结束列>] file:指定排序的字段范围,也就是告诉 sort 从第几列到第几列作为排序依据。

  • sort -t, -k3,3
    • -t,:按照逗号进行分隔
    • -k3,3:指定第3列作为排序依据
apluser@FengYeHong-HP:0724$ sort -t, -k3,3 shuffled.csv > all_info_sort.csv
apluser@FengYeHong-HP:0724$ tail all_info_sort.csv
399991,user_name_000399991,auid_000399991,地球399991
399992,user_name_000399992,auid_000399992,地球399992
399993,user_name_000399993,auid_000399993,地球399993
399994,user_name_000399994,auid_000399994,地球399994
399995,user_name_000399995,auid_000399995,地球399995
399996,user_name_000399996,auid_000399996,地球399996
399997,user_name_000399997,auid_000399997,地球399997
399998,user_name_000399998,auid_000399998,地球399998
399999,user_name_000399999,auid_000399999,地球399999
400000,user_name_000400000,auid_000400000,地球400000
apluser@FengYeHong-HP:0724$ sort auid_list.txt > auid_list_sort.csv
apluser@FengYeHong-HP:0724$ tail auid_list_sort.csv
auid_000395846
auid_000395932
auid_000395948
auid_000396121
auid_000396465
auid_000396566
auid_000397508
auid_000398221
auid_000398744
auid_000398933

3.2 join命令匹配数据

3.2.1 正常数据匹配

  • -t,:指定通过逗号分割文件
  • -1 1:指定第1个文件的第1个字段作为join条件
  • -2 3:指定第2个文件的第3个字段作为join条件
apluser@FengYeHong-HP:0724$ wc -l auid_list_sort.csv
1000 auid_list_sort.csv
apluser@FengYeHong-HP:0724$ join -t, -1 1 -2 3 auid_list_sort.csv all_info_sort.csv > result.csv
apluser@FengYeHong-HP:0724$ wc -l result.csv
1001 result.csv
apluser@FengYeHong-HP:0724$ grep -a auid_000295178 result.csv
auid_000295178,295178,user_name_000295178,地球295178
auid_000295178,@295178@,@user_name_000295178@,@地球295178@

3.2.2!!!注意事项!!!

两个文件进行join匹配数据的时候,第一个文件的换行符一定要是LF,不能是CRLF,否则无法join

  • 可以看到,我们将第一个文件的换行符转换为CRLF之后,进行join时,无任何匹配
  • 在实际工作中,我们可能在windows环境中使用文本编辑器对第一个文件进行编辑,手动粘贴内容,保存之后就直接带到linux环境中使用了,大多数windows环境中的文本编辑器的换行符都是CRLF,因此会造成join命令无法匹配的情况。
apluser@FengYeHong-HP:0724$ nkf --guess auid_list_sort.csv
ASCII (LF)
apluser@FengYeHong-HP:0724$ awk '{printf "%s\r\n", $0}' auid_list_sort.csv > auid_list_CRLF_sort.csv
apluser@FengYeHong-HP:0724$
apluser@FengYeHong-HP:0724$ nkf --guess auid_list_CRLF_sort.csv
ASCII (CRLF)
apluser@FengYeHong-HP:0724$ nkf --guess all_info_sort.csv
UTF-8 (LF)
apluser@FengYeHong-HP:0724$ # 👇👇👇join之后, 无任何输出👇👇👇
apluser@FengYeHong-HP:0724$ join -t, -1 1 -2 3 auid_list_CRLF_sort.csv all_info_sort.csv
apluser@FengYeHong-HP:0724$ # 👆👆👆join之后, 无任何输出👆👆👆

四. 数据整理

通过join命令处理过之后的数据,其指定用来join的字段会跑到第1列,破坏了原有的数据结构

apluser@FengYeHong-HP:0724$ head result.csv
auid_000000333,333,user_name_000000333,地球333
auid_000000835,835,user_name_000000835,地球835
auid_000000922,922,user_name_000000922,地球922
auid_000001206,1206,user_name_000001206,地球1206
auid_000001436,1436,user_name_000001436,地球1436
auid_000001853,1853,user_name_000001853,地球1853
auid_000001925,1925,user_name_000001925,地球1925
auid_000002146,2146,user_name_000002146,地球2146
auid_000002195,2195,user_name_000002195,地球2195
auid_000002798,2798,user_name_000002798,地球2798

可通过awk命令将指定字段的顺序进行调换

awk -F',' '{
	col1 = $1;
	for(i=2; i<=3; i++) {
		printf "%s,", $i
	}
	printf "%s", col1
	for(i=4; i<=NF; i++) {
		printf ",%s", $i
	}
	printf "\n"
}' result.csv > result_handle.csv
  • 处理之后的效果
apluser@FengYeHong-HP:0724$ head result_handle.csv
333,user_name_000000333,auid_000000333,地球333
835,user_name_000000835,auid_000000835,地球835
922,user_name_000000922,auid_000000922,地球922
1206,user_name_000001206,auid_000001206,地球1206
1436,user_name_000001436,auid_000001436,地球1436
1853,user_name_000001853,auid_000001853,地球1853
1925,user_name_000001925,auid_000001925,地球1925
2146,user_name_000002146,auid_000002146,地球2146
2195,user_name_000002195,auid_000002195,地球2195
2798,user_name_000002798,auid_000002798,地球2798

五. 其他方式

除了join之外,awk命令也可以实现快速匹配的需求,只是效率没有join那么高,不过一般也足够用了。

  • 核心思想就是读取源文件和待匹配的目标文件
  • 将源文件中的数据放到数组中,然后指定待匹配的目标文件的第3个字段是否在数组中
awk -F, 'NR==FNR{auid_list[$1]; next} $3 in auid_list' auid_list.txt shuffled.csv > result_handle_awk.csv
  • 通过diff命令可以看到生成的文件一致
apluser@FengYeHong-HP:0724$ diff <(sort result_handle_awk.csv) <(sort result_handle.csv)
apluser@FengYeHong-HP:0724$

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • MemcacheQ安装及使用方法

    MemcacheQ安装及使用方法

    MemcacheQ 是一个简单的分布式队列服务,它的运行依赖于BerkeleyDB 和 libevent,所以需要先安装BerkeleyDB和libevent,需要的朋友可以参考下
    2017-03-03
  • 一文详解Linux下如何在vim里使用异步编译和运行

    一文详解Linux下如何在vim里使用异步编译和运行

    这篇文章主要介绍了如何在Linux的vim编辑器中使用异步编译和运行C++程序,具体功能包括在vim中直接构建和运行单个文件或整个项目,使用快捷键如F9、F10、F7、F8和F6进行操作,此外,提到了使用两个vim插件来实现这些功能,并提供了必要的配置文件和命令信息
    2025-10-10
  • 解决navicat连接不上linux服务器上的mysql问题

    解决navicat连接不上linux服务器上的mysql问题

    这篇文章主要介绍了navicat连接不上linux服务器上的mysql的解决办法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • Linux内核启动流程详解(基于 5.15.119 源码)

    Linux内核启动流程详解(基于 5.15.119 源码)

    文章详细介绍了基于Linux 5.15.119源码的x86_64架构内核启动流程,从GRUB加载bzImage到压缩内核解压、初始化硬件、切换到保护模式、64位解压入口,直至启动第一个用户进程/sbin/init的全过程,需要的朋友可以参考下
    2026-05-05
  • Xshell从会话同步到磁盘迁移的完整配置指南

    Xshell从会话同步到磁盘迁移的完整配置指南

    Xshell作为业界领先的SSH客户端工具,以其强大的功能和稳定性赢得了广大技术人员的青睐,随着使用时间的增长,我们会积累大量服务器连接配置,当更换电脑或重装系统时,如何安全、完整地迁移这些配置成为一个实际问题,本文将为您提供一套完整的解决方案
    2025-12-12
  • Linux下进程的CPU配置与线程绑定过程

    Linux下进程的CPU配置与线程绑定过程

    本文介绍Linux系统中基于进程和线程的CPU配置方法,通过taskset命令和pthread库调整亲和力,将进程/线程绑定到特定CPU核心以优化资源分配,提升系统性能与实时任务响应效率,同时强调操作验证及注意事项
    2025-07-07
  • Linux下9种优秀的代码比对工具推荐小结

    Linux下9种优秀的代码比对工具推荐小结

    这篇文章主要介绍了Linux下9种优秀的代码比对工具推荐小结,不仅有命令行工具,还有 GUI 界面工具,让你轻松进行代码比对,感兴趣的可以一起来了解一下
    2020-06-06
  • Linux下如何寻找相同文件的方法

    Linux下如何寻找相同文件的方法

    这篇文章主要介绍了Linux下如何寻找相同文件的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-06-06
  • Linux中创建新用户并赋予指定目录的相关权限

    Linux中创建新用户并赋予指定目录的相关权限

    这篇文章主要介绍了Linux中创建新用户并赋予指定目录的相关权限,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-11-11
  • Linux基础命令@grep、wc、管道符的使用详解

    Linux基础命令@grep、wc、管道符的使用详解

    这篇文章主要介绍了Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2025-06-06

最新评论