python - 有没有一种简单的方法来输出 fasta 文件的唯一基因 ID?
问题描述
我正在开发一个使用nano
inside 的项目command-line
。我有一个包含 40,000 多个基因的 fasta 文件,我只想提取唯一的基因ID。我正在使用以下命令:
from Bio import SeqIO
import sys
import re
fasta_file = (sys.argv[1])
for myfile in SeqIO.parse(fasta_file, "fasta"):
if len(myfile) > 250:
gene_id = myfile.id
mylist = re.match(r"H149xcV_[^\W_]+_[^\W_]+_[^\W_])_[^\W_]+", gene_id)
print (">"+list.group(1))
这为我提供了相同基因的复制品。输出大约是 40,000 个基因。我发布了一个示例:
>H149xcV_Fge342_r3_h2
>H149xcV_bTr423_r3_h2
>H149xcV_kN893_r3_h2
>H149xcV_DNp021_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_SRt424234_r3_h2
>H149xcV_Fge342_r3_h2
>H149xcV_Fge342_r3_h2
有没有办法重新格式化我的命令,以便我只收到唯一的基因 ID:
>H149xcV_Fge342_r3_h2
>H149xcV_bTr423_r3_h2
>H149xcV_kN893_r3_h2
>H149xcV_DNp021_r3_h2
>H149xcV_JEP3324_r3_h2
>H149xcV_SRt424234_r3_h2
解决方案
推荐阅读
- python - 如何更新烧瓶中购物车中的数量?
- python - 处理相机旋转的正确方法
- flutter - 如何将文本表单字段下的行扩展到可见性图标下?
- omnet++ - VEINS 中 802.11p MAC 层中的数据包分段
- javascript - 需要帮助重建菜单导航
- python - 如何使用逐元素操作获取多个 numpy 保存的数组的平均值和标准
- azure - 使用 Terraform 检索 Azure VNET 子网 ID
- javascript - “SheetrockError:请求失败”但没有进一步的细节
- reactjs - AWS Beanstalk CLI 不断部署 react/npm 开发构建
- vbscript - 由多余的分配修复的莫名其妙的崩溃