使用 uniq 进行文本文件处理

2025/4/6 0:36:35 来源：https://blog.csdn.net/qq_45831414/article/details/141286370 浏览: 次关键词：使用 uniq 进行文本文件处理

uniq 是一个命令行工具，用于处理文本文件中的行，特别是用于过滤重复的行。它通常用于 Unix/Linux 系统中，可以用来移除连续重复的行或标记重复的行。uniq 是一个非常实用的工具，尤其在处理经过排序的文本文件时非常有效。

移除连续重复的行:
```
uniq file.txt > unique.txt
```
这将移除 file.txt 中连续重复的行，并将结果保存到 unique.txt 文件中。
标记重复的行:
```
uniq -d file.txt > duplicates.txt
```
-d 选项使 uniq 仅输出重复的行。
显示所有行:
```
uniq -a file.txt > all.txt
```
-a 选项使 uniq 显示所有的行，包括重复的行。
忽略大小写:
```
uniq -i file.txt > case-insensitive.txt
```
-i 选项使 uniq 忽略大小写差异，即认为大小写相同的字符是相等的。
移除所有重复的行:
```
sort file.txt | uniq > unique.txt
```
先使用 sort 对文件进行排序，然后再使用 uniq 移除所有重复的行。
统计重复行的数量:
```
sort file.txt | uniq -c > counts.txt
```
-c 选项使 uniq 显示每行的出现次数。
按照特定列移除重复行:
```
sort -t: -k1 file.txt | uniq -f1 > unique.txt
```
-t: 设置字段分隔符为冒号，-k1 表示按照第一列排序，-f1 表示忽略第一列来进行去重。

使用自定义分隔符:
```
sort -t, -k2 file.txt | uniq -f1 > unique.txt
```
-t, 设置字段分隔符为逗号，-k2 表示按照第二列排序，-f1 表示忽略第一列来进行去重。
统计不重复行的数量:
```
sort file.txt | uniq -u | wc -l
```
这将统计 file.txt 中不重复行的数量。
移除特定行:
```
sort file.txt | uniq -w4 -f1 > filtered.txt
```
-w4 表示按照长度为4的字段进行匹配，-f1 表示忽略第一列来进行去重。
输出指定次数的重复行:
```
sort file.txt | uniq -c | awk '$1 > 1' > duplicates.txt
```
这将输出出现次数大于1次的行。
统计每个项目的出现次数:
```
sort file.txt | uniq -c | awk '{print $2, $1}' > counts.txt
```
这将输出每个项目的出现次数，并将项目名称放在前面。