grep - 如何确定由于特定大小而更高的重叠群数量
问题描述
我希望你一切都好
请问我有一个fasta文件,比如
>contig1
sequence
>contig2
sequence
>contig3
>sequence
每个序列都有它的长度我想确定高于 9000 的重叠群的数量(因此序列的长度高于 9000)
谢谢
解决方案
您已标记 grep,因此grep -c '.\{9000\}' your_fasta.fa
可能是最直接的方法。
更“生物信息学”的方法是使用 seqkit ( https://bioinf.shenwei.me/seqkit/ ):seqkit seq -m 9000 your_fasta.fa > newfile.txt
将超过 9000 个碱基的序列提取到“newfile.txt”,并grep -c ">" newfile.txt
计算长度 >9000 的序列数.
此外,这里有一堆你可以适应的 awk/perl/bioawk 解决方案:https ://www.biostars.org/p/79202/
推荐阅读
- android - 此处不允许使用元素 external-media-path
- javascript - 电子邮件操作中的 generateEmailVerificationLink 和其他 Firebase 传递状态
- c - Ternary operator argument evaluation in C
- c# - 打开签名的 PDF 时显示“至少一个签名有问题”消息
- excel - Excel 365、数据透视表和切片器更改日期格式
- identityserver4 - 在重定向到客户端应用程序之前在 IdentityServer 登录中添加检查
- c++ - 将类声明为指针的好处?
- c - PostgreSQL C 扩展:函数调用之间的持久数据
- apache-kafka - 端到端程序以删除 kafka 主题
- python - Python如何将Series类型:对象转换为int