r - 删除具有唯一 ENSG ID 的基因重复
问题描述
我是 R 的初学者。我有一个 tibble data.frame:它是一个带有 EntrezgeneID、GeneSymbol、Gene description 和 ENSG_ID 的基因列表。我想删除与唯一 ENSG ID 相关的基因重复。例如,在我的数据框中发现 AKRC1 有 2 个 ENSG id,其中一个与基因 AKRC2 相同。
初始文件
我试图删除重复的,但问题是我使用相同的 ENSG ID 保留了 AKRC1 和 AKRC2。这是使用的代码:
#确定非重复基因的索引
non_duplicated_idx <- which(duplicated(annotation1$GeneSymbol_v85) == FALSE)
#使用索引仅返回非重复基因
annotation1 <- annotation1 [non_duplicated_idx, ]
重复的基因被删除,但在这里,例如,AKRC1 与 AKRC2 的 ENSG_ID 保持一致。
删除重复项后
是否可以使用唯一的 ENSG_ID 删除重复项?(这里例如我想用ENSG00000187134保留AKRC1)
非常感谢你的帮助,杰西卡
解决方案
只需将df
, 替换为您的数据框的名称:
df[!duplicated(df$GeneSymbol_v85), ]
并查看哪些是重复的:
df[duplicated(df$GeneSymbol_v85), ]
推荐阅读
- css - DIV 角上的三角形
- jsf - Primefaces JSF App的Tomcat8启动失败
- asp.net-core - 为单元测试 Signalr .NetCore 消息集线器模拟 Context.ConnectionId
- hyperledger-fabric - 从客户端发送查询请求时出错:没有可查询的对等方
- r - 除第一列外,删除所有 NA 的行
- php - 无法插入数据库 - PHP
- arduino - 如何用 esp32 测量 Lipo 或 lifepo4 电池
- excel - 如何以特定顺序使用多个范围构建新范围?
- c# - 同类型的一对一关系实体
- c# - 从浮点数转换为整数权重