sequence - 如何从 FASTA 格式确定模式生物
问题描述
所以我有这种fasta格式:例如
>sp|A9X7L0|ANMT_RUTGR Anthranilate N-methyltransferase OS=Ruta graveolens OX=37565 PE=1 SV=1
MGSLSESHTQYKHGVEVEEDEEESYSRAMQLSMAIVLPMATQSAIQLGVFEIIAKAPGGR
LSASEIATILQAQNPKAPVMLDRMLRLLVSHRVLDCSVSGPAGERLYGLTSVSKYFVPDQ
DGASLGNFMALPLDKVFMESWMGVKGAVMEGGIPFNRVHGMHIFEYASSNSKFSDTYHRA
MFNHSTIALKRILEHYKGFENVTKLVDVGGGLGVTLSMIASKYPHIQAINFDLPHVVQDA
ASYPGVEHVGGNMFESVPEGDAILMKWILHCWDDEQCLRILKNCYKATPENGKVIVMNSV
VPETPEVSSSARETSLLDVLLMTRDGGGRERTQKEFTELAIGAGFKGINFACCVCNLHIM
EFFK
所以我想知道如何确定一个是否是:
Bacteria
Viruses
Archaea
Eukaryota
解决方案
OS
查看 FASTA 文件的标题部分时可以找到答案。但是假设您没有此信息,那么您将执行BLAST搜索。如果您的序列中的字母仅由 A、T、C 和 G 组成,那么它将是一个 DNA 序列。但由于它们不是您正在处理的蛋白质序列。所以我们需要使用蛋白质BLAST。
在在线工具中复制/粘贴 FASTA 文件:
将其余设置保留为默认设置,然后单击 BLAST 按钮。一段时间后,您将获得以下结果:
您将看到 100% 的相似性匹配Ruta graveolens
(如 FASTA 标题中所述)和大约 80% 的相似性匹配在Citrus sinensis
.
如果你想知道这些物种属于哪个域,你可以点击加入记录的链接。因为Ruta graveolens
那是A9X7L0.1。在那里,您会看到这种植物的通用名称是普通芸香,其分类如下:
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae;
Pentapetalae; rosids; malvids; Sapindales; Rutaceae; Rutoideae;
Ruta.
推荐阅读
- laravel - 在 updateOrCreate 中使用条件语句
- python - Kivy Scrollview 中的图像不可滚动
- javascript - 我可以在没有任何服务器的情况下发送 XHR 请求吗?
- python - 在 Altair 的每个方面子图中显示 x 和 y 标签
- node.js - 如何在猫鼬中获取最新插入的记录_id
- python - 无法将 Django 与 mongoDb 连接
- java - 如果没有 Internet,如何在 MainActivity 中显示消息?
- three.js - ThreeJS:如何导入 PositionalAudioHelper?
- css - 滚动条不再出现
- python - 在不重复字符的情况下优化最长子串的蛮力方法