首页 > 解决方案 > 删除具有唯一 ENSG ID 的基因重复

问题描述

我是 R 的初学者。我有一个 tibble data.frame:它是一个带有 EntrezgeneID、GeneSymbol、Gene description 和 ENSG_ID 的基因列表。我想删除与唯一 ENSG ID 相关的基因重复。例如,在我的数据框中发现 AKRC1 有 2 个 ENSG id,其中一个与基因 AKRC2 相同。

初始文件

初始文件

我试图删除重复的,但问题是我使用相同的 ENSG ID 保留了 AKRC1 和 AKRC2。这是使用的代码:

#确定非重复基因的索引

non_duplicated_idx <- which(duplicated(annotation1$GeneSymbol_v85) == FALSE)

#使用索引仅返回非重复基因

annotation1 <- annotation1 [non_duplicated_idx, ]

重复的基因被删除,但在这里,例如,AKRC1 与 AKRC2 的 ENSG_ID 保持一致。

删除重复项后

在此处输入图像描述

是否可以使用唯一的 ENSG_ID 删除重复项?(这里例如我想用ENSG00000187134保留AKRC1)

非常感谢你的帮助,杰西卡

标签: r

解决方案


只需将df, 替换为您的数据框的名称:

df[!duplicated(df$GeneSymbol_v85), ]

并查看哪些是重复的:

df[duplicated(df$GeneSymbol_v85), ]

推荐阅读