首页 > 解决方案 > 如何从 FASTA 格式确定模式生物

问题描述

所以我有这种fasta格式:例如

>sp|A9X7L0|ANMT_RUTGR Anthranilate N-methyltransferase OS=Ruta graveolens OX=37565 PE=1 SV=1
MGSLSESHTQYKHGVEVEEDEEESYSRAMQLSMAIVLPMATQSAIQLGVFEIIAKAPGGR
LSASEIATILQAQNPKAPVMLDRMLRLLVSHRVLDCSVSGPAGERLYGLTSVSKYFVPDQ
DGASLGNFMALPLDKVFMESWMGVKGAVMEGGIPFNRVHGMHIFEYASSNSKFSDTYHRA
MFNHSTIALKRILEHYKGFENVTKLVDVGGGLGVTLSMIASKYPHIQAINFDLPHVVQDA
ASYPGVEHVGGNMFESVPEGDAILMKWILHCWDDEQCLRILKNCYKATPENGKVIVMNSV
VPETPEVSSSARETSLLDVLLMTRDGGGRERTQKEFTELAIGAGFKGINFACCVCNLHIM
EFFK

所以我想知道如何确定一个是否是:

 Bacteria
 Viruses
 Archaea
 Eukaryota

标签: sequencebioinformaticsbiopythonfasta

解决方案


OS查看 FASTA 文件的标题部分时可以找到答案。但是假设您没有此信息,那么您将执行BLAST搜索。如果您的序列中的字母仅由 A、T、C 和 G 组成,那么它将是一个 DNA 序列。但由于它们不是您正在处理的蛋白质序列。所以我们需要使用蛋白质BLAST

在在线工具中复制/粘贴 FASTA 文件:

爆炸搜索

将其余设置保留为默认设置,然后单击 BLAST 按钮。一段时间后,您将获得以下结果:

爆炸结果

您将看到 100% 的相似性匹配Ruta graveolens(如 FASTA 标题中所述)和大约 80% 的相似性匹配在Citrus sinensis.

如果你想知道这些物种属于哪个域,你可以点击加入记录的链接。因为Ruta graveolens那是A9X7L0.1。在那里,您会看到这种植物的通用名称是普通芸香,其分类如下:

 Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
        Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae;
        Pentapetalae; rosids; malvids; Sapindales; Rutaceae; Rutoideae;
        Ruta.

推荐阅读