首页 > 解决方案 > R如何在给定的符号处切割列表并输出数据框?

问题描述

我已经下载了一个包含蛋白质序列的 .txt 文件并将其加载到 R 中。我想将其转换为将 attr(,"name") 保存为一列,并且在其旁边的列中保存氨基酸序列,我不需要属性(“注释”)。这些序列甚至没有长度。我不知道如何在此处列出列表。v如何接近它?所以这是两个序列的示例:

那是我的清单:

structure(list(AT1G51370.2 = structure(c("m", "v", "g", "g", 
"k", "k", "k", "t", "k", "i", "c", "d", "k", "v", "s", "h", "e", 
"e", "d", "r", "i", "s", "q", "l", "p", "e", "p", "l", "i", "s", 
"e", "i", "l", "f", "h", "l", "s", "t", "k", "d", "s", "v", "r", 
"t", "s", "a", "l", "s", "t", "k", "w", "r", "y", "l", "w", "q", 
"s", "v", "p", "g", "l", "d", "l", "d", "p", "y", "a", "s", "s", 
"n", "t", "n", "t", "i", "v", "s", "f", "v", "e", "s", "f", "f", 
"d", "s", "h", "r", "d", "s", "w", "i", "r", "k", "l", "r", "l", 
"d", "l", "g", "y", "h", "h", "d", "k", "y", "d", "l", "m", "s", 
"w", "i", "d", "a", "a", "t", "t", "r", "r", "i", "q", "h", "l", 
"d", "v", "h", "c", "f", "h", "d", "n", "k", "i", "p", "l", "s", 
"i", "y", "t", "c", "t", "t", "l", "v", "h", "l", "r", "l", "r", 
"w", "a", "v", "l", "t", "n", "p", "e", "f", "v", "s", "l", "p", 
"c", "l", "k", "i", "m", "h", "f", "e", "n", "v", "s", "y", "p", 
"n", "e", "t", "t", "l", "q", "k", "l", "i", "s", "g", "s", "p", 
"v", "l", "e", "e", "l", "i", "l", "f", "s", "t", "m", "y", "p", 
"k", "g", "n", "v", "l", "q", "l", "r", "s", "d", "t", "l", "k", 
"r", "l", "d", "i", "n", "e", "f", "i", "d", "v", "v", "i", "y", 
"a", "p", "l", "l", "q", "c", "l", "r", "a", "k", "m", "y", "s", 
"t", "k", "n", "f", "q", "i", "i", "s", "s", "g", "f", "p", "a", 
"k", "l", "d", "i", "d", "f", "v", "n", "t", "g", "g", "r", "y", 
"q", "k", "k", "k", "v", "i", "e", "d", "i", "l", "i", "d", "i", 
"s", "r", "v", "r", "d", "l", "v", "i", "s", "s", "n", "t", "w", 
"k", "e", "f", "f", "l", "y", "s", "k", "s", "r", "p", "l", "l", 
"q", "f", "r", "y", "i", "s", "h", "l", "n", "a", "r", "f", "y", 
"i", "s", "d", "l", "e", "m", "l", "p", "t", "l", "l", "e", "s", 
"c", "p", "k", "l", "e", "s", "l", "i", "l", "v", "m", "s", "s", 
"f", "n", "p", "s"), name = "AT1G51370.2", Annot = ">AT1G51370.2 | Symbols:  | F-box/RNI-like/FBD-like domains-containing protein | chr1:19045615-19046748 FORWARD LENGTH=346", class = "SeqFastadna"), 
    AT1G50920.1 = structure(c("m", "v", "q", "y", "n", "f", "k", 
    "r", "i", "t", "v", "v", "p", "n", "g", "k", "e", "f", "v", 
    "d", "i", "i", "l", "s", "r", "t", "q", "r", "q", "t", "p", 
    "t", "v", "v", "h", "k", "g", "y", "k", "i", "n", "r", "l", 
    "r", "q", "f", "y", "m", "r", "k", "v", "k", "y", "t", "q", 
    "t", "n", "f", "h", "a", "k", "l", "s", "a", "i", "i", "d", 
    "e", "f", "p", "r", "l", "e", "q", "i", "h", "p", "f", "y", 
    "g", "d", "l", "l", "h", "v", "l", "y", "n", "k", "d", "h", 
    "y", "k", "l", "a", "l", "g", "q", "v", "n", "t", "a", "r", 
    "n", "l", "i", "s", "k", "i", "s", "k", "d", "y", "v", "k", 
    "l", "l", "k", "y", "g", "d", "s", "l", "y", "r", "c", "k", 
    "c", "l", "k", "v", "a", "a", "l", "g", "r", "m", "c", "t", 
    "v", "l", "k", "r", "i", "t", "p", "s", "l", "a", "y", "l", 
    "e", "q", "i", "r", "q", "h", "m", "a", "r", "l", "p", "s", 
    "i", "d", "p", "n", "t", "r", "t", "v", "l", "i", "c", "g", 
    "y", "p", "n", "v", "g", "k", "s", "s", "f", "m", "n", "k", 
    "v", "t", "r", "a", "d", "v", "d", "v", "q", "p", "y", "a", 
    "f", "t", "t", "k", "s", "l", "f", "v", "g", "h", "t", "d", 
    "y", "k", "y", "l", "r", "y", "q", "v", "i", "d", "t", "p", 
    "g", "i", "l", "d", "r", "p", "f", "e", "d", "r", "n", "i", 
    "i", "e", "m", "c", "s", "i", "t", "a", "l", "a", "h", "l", 
    "r", "a", "a", "v", "l", "f", "f", "l", "d", "i", "s", "g", 
    "s", "c", "g", "y", "t", "i", "a", "q", "q", "a", "a", "l", 
    "f", "h", "s", "i", "k", "s", "l", "f", "m", "n", "k", "p", 
    "l", "v", "i", "v", "c", "n", "k", "t", "d", "l", "m", "p", 
    "m", "e", "n", "i", "s", "e", "e", "d", "r", "k", "l", "i", 
    "e", "e", "m", "k", "s", "e", "a", "m", "k", "t", "a", "m", 
    "g", "a", "s", "e", "e", "q", "v", "l", "l", "k", "m", "s", 
    "t", "l", "t", "d", "e", "g", "v", "m", "s", "v", "k", "n", 
    "a", "a", "c", "e", "r", "l", "l", "d", "q", "r", "v", "e", 
    "a", "k", "m", "k", "s", "k", "k", "i", "n", "d", "h", "l", 
    "n", "r", "f", "h", "v", "a", "i", "p", "k", "p", "r", "d", 
    "s", "i", "e", "r", "l", "p", "c", "i", "p", "q", "v", "v", 
    "l", "e", "a", "k", "a", "k", "e", "a", "a", "a", "m", "e", 
    "k", "r", "k", "t", "e", "k", "d", "l", "e", "e", "e", "n", 
    "g", "g", "a", "g", "v", "y", "s", "a", "s", "l", "k", "k", 
    "n", "y", "i", "l", "q", "h", "d", "e", "w", "k", "e", "d", 
    "i", "m", "p", "e", "i", "l", "d", "g", "h", "n", "v", "a", 
    "d", "f", "i", "d", "p", "d", "i", "l", "q", "r", "l", "a", 
    "e", "l", "e", "r", "e", "e", "g", "i", "r", "e", "a", "g", 
    "v", "e", "e", "a", "d", "m", "e", "m", "d", "i", "e", "k", 
    "l", "s", "d", "e", "q", "l", "k", "q", "l", "s", "e", "i", 
    "r", "k", "k", "k", "a", "i", "l", "i", "k", "n", "h", "r", 
    "l", "k", "k", "t", "v", "a", "q", "n", "r", "s", "t", "v", 
    "p", "r", "k", "f", "d", "k", "d", "k", "k", "y", "t", "t", 
    "k", "r", "m", "g", "r", "e", "l", "s", "a", "m", "g", "l", 
    "d", "p", "s", "s", "a", "m", "d", "r", "a", "r", "s", "k", 
    "s", "r", "g", "r", "k", "r", "d", "r", "s", "e", "d", "a", 
    "g", "n", "d", "a", "m", "d", "v", "d", "d", "e", "q", "q", 
    "s", "n", "k", "k", "q", "r", "v", "r", "s", "k", "s", "r", 
    "a", "m", "s", "i", "s", "r", "s", "q", "s", "r", "p", "p", 
    "a", "h", "e", "v", "v", "p", "g", "e", "g", "f", "k", "d", 
    "s", "t", "q", "k", "l", "s", "a", "i", "k", "i", "s", "n", 
    "k", "s", "h", "k", "k", "r", "d", "k", "n", "a", "r", "r", 
    "g", "e", "a", "d", "r", "v", "i", "p", "t", "l", "r", "p", 
    "k", "h", "l", "f", "s", "g", "k", "r", "g", "k", "g", "k", 
    "t", "d", "r", "r"), name = "AT1G50920.1", Annot = ">AT1G50920.1 | Symbols:  | Nucleolar GTP-binding protein | chr1:18870555-18872570 FORWARD LENGTH=671", class = "SeqFastadna"), 
    AT1G36960.1 = structure(c("m", "t", "r", "l", "l", "p", "y", 
    "k", "g", "g", "d", "f", "l", "g", "p", "d", "f", "l", "t", 
    "f", "i", "d", "l", "c", "v", "q", "v", "r", "g", "i", "p", 
    "l", "p", "y", "l", "s", "e", "l", "t", "v", "s", "f", "i", 
    "a", "g", "t", "l", "g", "p", "i", "l", "e", "m", "e", "f", 
    "n", "q", "d", "t", "s", "t", "y", "v", "a", "f", "i", "r", 
    "v", "k", "i", "r", "l", "v", "f", "i", "d", "r", "l", "r", 
    "f", "f", "r", "r", "e", "e", "a", "a", "a", "s", "n", "t", 
    "i", "t", "d", "q", "t", "h", "m", "t", "s", "s", "n", "s", 
    "s", "d", "i", "s", "p", "a", "s", "p", "i", "s", "q", "p", 
    "p", "l", "p", "a", "s", "l", "p", "s", "h", "d", "s", "y", 
    "f", "d", "a", "g", "i", "q", "a", "s", "r", "l", "v", "n", 
    "p", "r", "a", "i", "s", "q", "h", "h", "f", "s", "s", "s", 
    "y", "s", "d", "f", "k", "g", "k", "e", "k", "a", "k", "i", 
    "k", "i", "g", "e", "c", "s", "k", "r", "k", "k", "d", "k", 
    "q", "v", "d", "s", "g", "t"), name = "AT1G36960.1", Annot = ">AT1G36960.1 | Symbols:  | unknown protein; BEST Arabidopsis thaliana protein match is: unknown protein (TAIR:AT1G48095.1); Has 54 Blast hits to 54 proteins in 2 species: Archae - 0; Bacteria - 0; Metazoa - 0; Fungi - 0; Plants - 54; Viruses - 0; Other Eukaryotes - 0 (source: NCBI BLink). | chr1:14014796-14015508 FORWARD LENGTH=181", class = "SeqFastadna"), 
    AT1G44020.1 = structure(c("m", "d", "s", "e", "s", "e", "s", 
    "k", "l", "i", "s", "f", "i", "s", "q", "l", "v", "s", "r", 
    "n", "n", "t", "d", "s", "e", "n", "i", "s", "c", "m", "i", 
    "q", "t", "i", "s", "l", "v", "s", "s", "m", "d", "l", "k", 
    "s", "q", "p", "k", "p", "e", "s", "k", "l", "m", "s", "l", 
    "v", "t", "q", "t", "i", "s", "l", "f", "n", "s", "m", "d", 
    "l", "s", "s", "q", "p", "e", "p", "l", "r", "k", "l", "i", 
    "s", "l", "i", "i", "e", "k", "l", "s", "h", "l", "n", "s", 
    "v", "d", "s", "d", "y", "e", "p", "k", "p", "d", "s", "e", 
    "f", "m", "s", "t", "f", "y", "e", "t", "y", "k", "l", "q", 
    "p", "r", "p", "e", "i", "i", "s", "i", "i", "h", "q", "i", 
    "y", "s", "l", "f", "i", "s", "t", "d", "t", "n", "k", "v", 
    "i", "t", "l", "v", "r", "s", "l", "d", "l", "d", "y", "s", 
    "e", "p", "e", "p", "e", "s", "e", "f", "i", "s", "v", "v", 
    "a", "v", "v", "k", "q", "i", "m", "s", "f", "a", "n", "s", 
    "i", "s", "n", "s", "e", "p", "e", "w", "q", "f", "i", "s", 
    "s", "m", "t", "e", "m", "i", "r", "l", "i", "s", "s", "i", 
    "d", "l", "e", "p", "e", "w", "e", "p", "p", "m", "q", "l", 
    "v", "a", "l", "f", "t", "h", "t", "f", "s", "l", "l", "y", 
    "y", "l", "d", "r", "d", "s", "e", "l", "y", "t", "l", "i", 
    "a", "q", "i", "i", "f", "i", "i", "d", "y", "t", "d", "s", 
    "e", "p", "e", "s", "e", "w", "g", "l", "d", "q", "l", "m", 
    "s", "l", "s", "p", "q", "w", "k", "v", "q", "l", "v", "q", 
    "g", "k", "f", "h", "v", "t", "g", "k", "i", "e", "r", "k", 
    "n", "k", "e", "k", "g", "k", "c", "q", "p", "e", "n", "r", 
    "h", "r", "l", "y", "l", "a", "k", "g", "e", "e", "a", "s", 
    "h", "f", "i", "c", "k", "d", "c", "n", "g", "e", "d", "h", 
    "i", "e", "c", "e", "k", "t", "p", "v", "e", "v", "k", "h", 
    "l", "l", "h", "p", "k", "h", "s", "l", "q", "l", "v", "s", 
    "q", "k", "s", "s", "i", "i", "q", "t", "r", "k", "c", "f", 
    "c", "c", "d", "e", "d", "l", "k", "k", "i", "f", "y", "y", 
    "c", "t", "g", "c", "d", "y", "d", "m", "n", "i", "a", "c", 
    "a", "e", "k", "p", "p", "v", "l", "f", "i", "d", "r", "p", 
    "k", "w", "h", "a", "d", "t", "l", "a", "l", "f", "q", "r", 
    "q", "a", "f", "l", "t", "c", "n", "v", "c", "a", "v", "a", 
    "d", "s", "s", "s", "p", "i", "y", "m", "c", "p", "p", "c", 
    "d", "f", "v", "v", "h", "q", "r", "c", "t", "g", "l", "p", 
    "r", "v", "i", "r", "i", "s", "r", "h", "r", "h", "r", "i", 
    "s", "f", "t", "t", "s", "f", "d", "e", "g", "d", "w", "s", 
    "c", "g", "v", "c", "r", "r", "k", "i", "d", "n", "d", "y", 
    "g", "g", "f", "s", "c", "i", "k", "d", "g", "c", "s", "y", 
    "a", "a", "h", "s", "r", "c", "a", "t", "q", "k", "n", "v", 
    "w", "d", "g", "i", "d", "l", "e", "g", "v", "p", "e", "e", 
    "i", "e", "e", "e", "e", "v", "e", "p", "f", "v", "t", "i", 
    "s", "k", "g", "v", "i", "h", "h", "f", "s", "h", "q", "n", 
    "h", "h", "l", "r", "l", "d", "e", "n", "r", "d", "r", "i", 
    "y", "d", "e", "n", "k", "l", "c", "q", "a", "c", "i", "m", 
    "p", "i", "y", "f", "g", "n", "f", "f", "s", "c", "m", "q", 
    "c", "d", "y", "i", "l", "q"), name = "AT1G44020.1", Annot = ">AT1G44020.1 | Symbols:  | Cysteine/Histidine-rich C1 domain family protein | chr1:16716692-16718656 REVERSE LENGTH=577", class = "SeqFastadna"), 
    AT1G15970.1 = structure(c("m", "s", "v", "p", "p", "r", "f", 
    "r", "s", "v", "n", "s", "d", "e", "r", "e", "f", "r", "s", 
    "v", "l", "g", "p", "t", "g", "n", "k", "l", "q", "r", "k", 
    "p", "p", "g", "m", "k", "l", "e", "k", "p", "m", "m", "e", 
    "k", "t", "i", "i", "d", "s", "k", "d", "e", "k", "a", "k", 
    "k", "p", "t", "t", "p", "a", "s", "p", "r", "t", "t", "l", 
    "k", "q", "c", "s", "s", "l", "c", "s", "s", "i", "l", "r", 
    "k", "n", "s", "a", "s", "m", "t", "a", "s", "y", "s", "s", 
    "d", "a", "s", "s", "s", "c", "e", "s", "s", "p", "l", "s", 
    "v", "a", "s", "s", "s", "s", "c", "k", "k", "v", "v", "r", 
    "r", "s", "g", "s", "v", "s", "s", "t", "r", "k", "l", "s", 
    "v", "g", "k", "e", "e", "e", "k", "v", "s", "g", "d", "c", 
    "f", "a", "d", "g", "r", "k", "r", "c", "a", "w", "i", "t", 
    "p", "k", "a", "d", "p", "c", "y", "v", "a", "f", "h", "d", 
    "e", "e", "w", "g", "v", "p", "v", "h", "d", "d", "k", "k", 
    "l", "f", "e", "l", "l", "c", "l", "s", "g", "a", "l", "a", 
    "e", "l", "s", "w", "t", "d", "i", "l", "s", "r", "r", "h", 
    "i", "l", "r", "e", "v", "f", "m", "d", "f", "d", "p", "v", 
    "a", "v", "a", "e", "l", "n", "d", "k", "k", "l", "t", "a", 
    "p", "g", "t", "a", "a", "i", "s", "l", "l", "s", "e", "v", 
    "k", "i", "r", "s", "i", "l", "d", "n", "s", "r", "h", "v", 
    "r", "k", "i", "i", "a", "e", "c", "g", "s", "l", "k", "k", 
    "y", "m", "w", "n", "f", "v", "n", "n", "k", "p", "t", "q", 
    "s", "q", "f", "r", "y", "q", "r", "q", "v", "p", "v", "k", 
    "t", "s", "k", "a", "e", "f", "i", "s", "k", "d", "l", "v", 
    "r", "r", "g", "f", "r", "s", "v", "s", "p", "t", "v", "i", 
    "y", "s", "f", "m", "q", "a", "a", "g", "l", "t", "n", "d", 
    "h", "l", "i", "g", "c", "f", "r", "y", "q", "d", "c", "c", 
    "v", "d", "a", "e", "t", "t", "t", "t", "t", "k", "a", "k", 
    "k", "k", "n", "e", "r", "e", "s", "d", "k"), name = "AT1G15970.1", Annot = ">AT1G15970.1 | Symbols:  | DNA glycosylase superfamily protein | chr1:5486544-5488494 REVERSE LENGTH=352", class = "SeqFastadna"), 
    AT1G73440.1 = structure(c("m", "a", "r", "g", "e", "s", "e", 
    "g", "e", "s", "s", "g", "s", "e", "r", "e", "s", "s", "s", 
    "s", "s", "s", "g", "n", "e", "s", "e", "p", "t", "k", "g", 
    "t", "i", "s", "k", "y", "e", "k", "q", "r", "l", "s", "r", 
    "i", "a", "e", "n", "k", "a", "r", "l", "d", "a", "l", "g", 
    "i", "s", "k", "a", "a", "k", "a", "l", "l", "s", "p", "s", 
    "p", "v", "s", "k", "k", "r", "r", "v", "k", "r", "n", "s", 
    "g", "e", "e", "d", "d", "d", "y", "t", "p", "v", "i", "a", 
    "d", "g", "d", "g", "d", "e", "d", "d", "d", "e", "v", "e", 
    "e", "i", "d", "e", "d", "e", "e", "f", "l", "c", "k", "r", 
    "k", "n", "k", "s", "s", "a", "s", "k", "r", "k", "v", "s", 
    "s", "r", "k", "i", "l", "n", "t", "s", "v", "s", "l", "g", 
    "e", "d", "d", "d", "d", "l", "d", "k", "a", "i", "a", "l", 
    "s", "l", "q", "g", "s", "v", "a", "g", "s", "d", "k", "e", 
    "a", "a", "t", "m", "k", "k", "k", "r", "p", "e", "l", "m", 
    "s", "k", "t", "q", "m", "t", "q", "d", "e", "l", "v", "m", 
    "y", "f", "c", "q", "f", "d", "e", "g", "g", "k", "g", "f", 
    "i", "t", "l", "r", "d", "v", "a", "k", "m", "a", "t", "v", 
    "h", "d", "f", "t", "w", "t", "e", "e", "e", "l", "q", "d", 
    "m", "i", "r", "c", "f", "d", "m", "d", "k", "d", "g", "k", 
    "l", "s", "l", "d", "e", "f", "r", "k", "i", "v", "s", "r", 
    "c", "r", "m", "l", "k", "g", "s"), name = "AT1G73440.1", Annot = ">AT1G73440.1 | Symbols:  | calmodulin-related | chr1:27611418-27612182 FORWARD LENGTH=254", class = "SeqFastadna")), .Names = c("AT1G51370.2", 
"AT1G50920.1", "AT1G36960.1", "AT1G44020.1", "AT1G15970.1", "AT1G73440.1"
))

我想将此列表转换为数据框并仅保留两个信息。在第一列我想有基因的名称(AT~),在第二列字符串中包含这个潜在基因的序列。其余信息可略过。

将此列表转换为数据框的最有效方法是什么?

标签: r

解决方案


推荐阅读