首页 > 解决方案 > 删除文件中的模式

问题描述

我有一个包含数千个序列的 fasta 文件。它以这种格式出现

>3276_2258569   M05025:154:000000000-BVP4M:1:1101:17272:1161 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570   M05025:154:000000000-BVP4M:1:1101:22227:1193 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571   M05025:154:000000000-BVP4M:1:1101:13340:1215 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

我想删除标题的大部分内容,如下所示

>3276_2258569
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570 
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

我试着用

sed -e "s/M.bc_diffs=0//g" myfile.fasta

但我没有得到预期的结果。如何删除我的序列标题上的那些模式?

标签: linuxfasta

解决方案


试试这个 Perl 命令

$ perl -ne  ' s/(\S+)(.*)/$1/g if /^>/; print ' bing.fasta
>3276_2258569
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

$

推荐阅读