bash - 有没有更快的方法在多个文件中 grep 数十亿个不匹配模式?
问题描述
我编写了一个脚本来计算所有可能的不匹配模式(取决于情况),如下面的两个(请查看 grep 命令),并将输出文件写为 sh 十亿行,如下所示:
LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B
下一步是执行所有这些数十亿的 grep 行并编写输出。为了尽可能快地运行它,我只使用 LC_ALL 查找 ASCII 代码(我的所有字符都是 ASCII)。此外,我将巨大的 grep 文件拆分为 16 个部分,并使用 16 个线程分别运行它们。
有谁知道任何更快的方法来 grep 我的模式?
任何帮助,将不胜感激。
先感谢您!
解决方案
推荐阅读
- prometheus - 使用 PromQL 计算事件发生或指标报告的次数
- c# - Visual Studio 16.8.1 总是显示其中一个进程崩溃(代码编辑器/代码分析崩溃)
- ios - iOS - Objective-C:库升级后 iOS 10 上的应用程序崩溃
- python - 如何在条件图中显示所有图例并在图中显示几个图例
- regex - Ragel:如何通过匹配不同的表达式来返回不同的值
- javascript - 下拉菜单以记住选择并重定向用户,并能够更改所选国家/地区
- amazon-web-services - 将 S3 复制到 Redshift:字符串长度超过 DDL 长度
- python - 测试运行失败:分配前引用的局部变量“”
- c# - 单击按钮时如何从 GridView 获取 DateTime 并将其添加到 TextBox
- r - 在格点图上显示值