首页 > 解决方案 > 如何计算或查看序列中的未知奇数字符?

问题描述

我有用于我的 Linux 教程的序列数据,我必须完成这样的活动。(是否有任何序列包含非核苷酸(除了 A、C、G、T 或 N)?我必须寻找与常规碱基不同的字符。我知道我正在寻找的字符在那里,因为我运行命令以查找奇数字符“n/N”并看到其他奇数字符。

grep -v $'sequence' filename.fasta |  grep -i $'n'

输出:

GAGGnCGATCCTGAACTCGTGGAGGAGCCAGTAGTGTGGC
PGQLMNARXNDSPGCGGCTTTTTGCCTCAGTGAATCTCTG
CGCTAGAATGCTTGTTAATNCCGTTTGCTGTAAACCTAAC

所以我现在知道除了 n/N 之外还有其他奇数字符,问题是要弄清楚我们的命令会在序列。

这是我使用 Linux 的第一周,请善待。

标签: grepsequence

解决方案


如何计算或查看序列中的未知奇数字符?
(奇怪的意思是不是 A、T、G、C、N 的字符)

要 grep 这些字符,您可以使用否定字符类... | grep '[^ACGTN]'

要查看这些颜色的字符,您可以使用... | grep --color '[^ACGTN]'

要计算具有此类字符的行数,您可以使用... | grep -c '[^ACGTN]'

要计算所有这些字符,您可以使用... | grep -o '[^ACGTN]' | wc -l


推荐阅读