首页 > 解决方案 > 从许多 LARGE 文件中删除重复的行

问题描述

我有许多具有相同数据格式的大文件(>100 1-10GB),它们之间包含许多重复的行。
文件 ABCD 可能在所有文件的某处都有相同的行,我只想删除所有文件之间的所有重复行。
将它们合并为 1 并删除重复项都很好,但我宁愿将它们分开,只删除其他地方存在的行(如果可能的话)。

我已经尝试过 sort -u *.txt > deduped.txt 但内存是一个巨大的问题(如果它可以工作,因为我取消了它,因为它占用了 AGES 时间)。
使用这种方法达到最大内存和 cpu 24/7 的峰值。

标签: linuxsortingduplicates

解决方案


推荐阅读