linux - 从许多 LARGE 文件中删除重复的行
问题描述
我有许多具有相同数据格式的大文件(>100 1-10GB),它们之间包含许多重复的行。
文件 ABCD 可能在所有文件的某处都有相同的行,我只想删除所有文件之间的所有重复行。
将它们合并为 1 并删除重复项都很好,但我宁愿将它们分开,只删除其他地方存在的行(如果可能的话)。
我已经尝试过 sort -u *.txt > deduped.txt 但内存是一个巨大的问题(如果它可以工作,因为我取消了它,因为它占用了 AGES 时间)。
使用这种方法达到最大内存和 cpu 24/7 的峰值。
解决方案
推荐阅读
- java - 从浏览器和其他应用程序到我的 webView 应用程序在应用程序中打开的不同行为
- c# - 如何在运行时从代码中获取应用程序“所有堆中的字节”性能计数器?
- javascript - 在网站上制作按钮显示和隐藏导航?
- vba - 显示日期的周数和年份
- r - 将许多小提琴情节组合在一个图形中
- python - 无法使用 BeautifulSoup 定位元素和抓取内容
- ruby-on-rails - 在弹性搜索中处理大量分片
- angular - 如何在响应式表单中使用 PATCH 更新我的输入
- javascript - JS 多函数调用和单 Javascript Promise
- c# - 基于绑定集合创建控件组