r - 从 R 中的 HGVS 格式中分离特定字符串
问题描述
我正在尝试将 ">" 符号之前和之后的特定字符串与 HGVS 短突变格式分开,示例如下:
"p.1258_1259EE>E" "p.286_287RR>R" "p.57_58KK>K" "p.287_288AA>A"
我想要实现的是从第一个字符串“p.1258_1259EE>E”中说,我可以得到以下信息:
starting_position end_position initial_aa mutant_aa
1258 1259 EE E
286 287 RR R
57 58 KK K
似乎比我最初想象的要复杂一些。希望这里有人可以提供帮助。谢谢,童童
解决方案
如果模式相同,则可以base R
选择将字符串格式化sub
为引入一个共同点sep
并将其用于read.csv
df1 <- read.csv(text= sub("^[^0-9]+([0-9]+)_([0-9]+)([A-Z]+)>([A-Z]+)",
"\\1,\\2,\\3,\\4", v1), header = FALSE, stringsAsFactors = FALSE,
col.names = c('starting_position', 'end_position', 'initial_aa', 'mutant_aa'))
df1
# starting_position end_position initial_aa mutant_aa
#1 1258 1259 EE E
#2 286 287 RR R
#3 57 58 KK K
#4 287 288 AA A
数据
v1 <- c("p.1258_1259EE>E", "p.286_287RR>R", "p.57_58KK>K", "p.287_288AA>A")
推荐阅读
- java - Java Socket 两次读取输入
- apache-spark - 在 Spark 中 datetime.datetime.fromtimestamp 有什么作用?
- c++ - Jenkins 向应用程序控制台发送无效输入
- android - 我可以有多个具有相同项目布局的回收站视图吗?
- asp.net-core-webapi - API NET CORE:错误:400“'I' 是值的无效开始。路径:$ | LineNumber:0 | BytePositionInLine:0。”
- python - 如何修复模块“tensorflow.python.keras.activations”没有属性“get”错误?
- amazon-rds - 连接到 AWS MariaDB 并使用 boto3 运行查询
- java - 尝试执行简单的 servlet 程序时出现错误。映射中是否缺少任何东西?
- node.js - NodeJS Bull queue.add 字符串化数据导致错误
- java - 使用位图时,Android MLKit 人脸检测未检测到人脸