python - 计算蛋白质序列的所有可能的 RNA 密码子组合
问题描述
我有一个蛋白质序列:
sequence_protein = 'IEEATHMTPCYELHGLRWVQIQDYAINVMQCL'
以及每种蛋白质的 tRNA 密码子表:
codon_table = {
'A': ('GCT', 'GCC', 'GCA', 'GCG'),
'C': ('TGT', 'TGC'),
'D': ('GAT', 'GAC'),
'E': ('GAA', 'GAG'),
'F': ('TTT', 'TTC'),
'G': ('GGT', 'GGC', 'GGA', 'GGG'),
'H': ('CAT', 'CAC'),
'I': ('ATT', 'ATC', 'ATA'),
'K': ('AAA', 'AAG'),
'L': ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
'M': ('ATG',),
'N': ('AAT', 'AAC'),
'P': ('CCT', 'CCC', 'CCA', 'CCG'),
'Q': ('CAA', 'CAG'),
'R': ('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'),
'S': ('TCT', 'TCC', 'TCA', 'TCG', 'AGT', 'AGC'),
'T': ('ACT', 'ACC', 'ACA', 'ACG'),
'V': ('GTT', 'GTC', 'GTA', 'GTG'),
'W': ('TGG',),
'Y': ('TAT', 'TAC'),}
然后我写了一个函数,它会给出一个元组,其中包含每种蛋白质的可能密码子:
tRNA = []
for i in sequence_protein:
for residue in i:
tRNA.append(codon_table[residue])
这给出了这个输出:
[('ATT', 'ATC', 'ATA'),
('GAA', 'GAG'),
('GAA', 'GAG'),
('GCT', 'GCC', 'GCA', 'GCG'),
('ACT', 'ACC', 'ACA', 'ACG'),
('CAT', 'CAC'),
('ATG',),
('ACT', 'ACC', 'ACA', 'ACG'),
('CCT', 'CCC', 'CCA', 'CCG'),
('TGT', 'TGC'),
('TAT', 'TAC'),
('GAA', 'GAG'),
('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
('CAT', 'CAC'),
('GGT', 'GGC', 'GGA', 'GGG'),
('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'),
('TGG',),
('GTT', 'GTC', 'GTA', 'GTG'),
('CAA', 'CAG'),
('ATT', 'ATC', 'ATA'),
('CAA', 'CAG'),
('GAT', 'GAC'),
('TAT', 'TAC'),
('GCT', 'GCC', 'GCA', 'GCG'),
('ATT', 'ATC', 'ATA'),
('AAT', 'AAC'),
('GTT', 'GTC', 'GTA', 'GTG'),
('ATG',),
('CAA', 'CAG'),
('TGT', 'TGC'),
('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG')]
有没有办法计算序列的所有可能的密码子组合(基本上计算元组中所有单独元素的乘积)?并且还要计算在不首先生成序列的情况下会有多少产品?
我尝试使用产品功能,但我的笔记本崩溃了:s
combs = []
for a in product(*tRNA):
combs.append(a)
print(a)
解决方案
要计算组合的总数:
sequence_protein = 'IEEATHMTPCYELHGLRWVQIQDYAINVMQCL'
total_number_combinations = np.prod([ len(codon_table[aa]) for aa in sequence_protein ])
要生成所有可能的组合:
最优雅的是itertools:
from itertools import product
tRNA = [codon_table[aa] for aa in sequence_protein]
for i in product(*tRNA):
#...do whatever you have to do with these combinations.
但您可以使用自定义函数。只需使用yield
这样您就不会一次生成所有序列并避免内存问题。
推荐阅读
- c++ - 仅调用 < 运算符时具有 std:less (或类似功能)的目的
- php - 使用 openssl_decrypt 将 VB.NET AES 编码转换为 PHP
- php - 获取两列和几行MYSQL之间的平均时间
- java - java SSLSocketFactory如何从密钥库中选择SSL期间的服务器证书和私钥
- ios - Api Gateway 和 Lambda 函数:响应正文
- python - AttributeError:类型对象'Cliente'没有属性'query'
- hibernate - oneToMany 关联中多个实体映射的性能问题
- sql - 优化使用多个子选择来显示列的 SQL 查询
- swagger - API-platform POST操作招摇页面为空
- xcode - 如何在 MacOS 上切换命令行工具