首页 > 解决方案 > 有没有更快的方法在多个文件中 grep 数十亿个不匹配模式?

问题描述

我编写了一个脚本来计算所有可能的不匹配模式(取决于情况),如下面的两个(请查看 grep 命令),并将输出文件写为 sh 十亿行,如下所示:

LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B

下一步是执行所有这些数十亿的 grep 行并编写输出。为了尽可能快地运行它,我只使用 LC_ALL 查找 ASCII 代码(我的所有字符都是 ASCII)。此外,我将巨大的 grep 文件拆分为 16 个部分,并使用 16 个线程分别运行它们。

有谁知道任何更快的方法来 grep 我的模式?

任何帮助,将不胜感激。

先感谢您!

标签: bashcountgrep

解决方案


推荐阅读