首页 > 解决方案 > 如何确定由于特定大小而更高的重叠群数量

问题描述

我希望你一切都好

请问我有一个fasta文件,比如

>contig1
sequence
>contig2
sequence
>contig3
>sequence

每个序列都有它的长度我想确定高于 9000 的重叠群的数量(因此序列的长度高于 9000)

谢谢

标签: grepbioinformatics

解决方案


您已标记 grep,因此grep -c '.\{9000\}' your_fasta.fa可能是最直接的方法。

更“生物信息学”的方法是使用 seqkit ( https://bioinf.shenwei.me/seqkit/ ):seqkit seq -m 9000 your_fasta.fa > newfile.txt将超过 9000 个碱基的序列提取到“newfile.txt”,并grep -c ">" newfile.txt计算长度 >9000 的序列数.

此外,这里有一堆你可以适应的 awk/perl/bioawk 解决方案:https ://www.biostars.org/p/79202/


推荐阅读