首页 > 解决方案 > 数据框中行中的类似字符串值

问题描述

我在 R 的数据框中有几行,其中疾病的名称相同,但措辞略有变化(加号更改为 a >)。

有没有办法快速扫描和合并这些行?

几个例子:

Row 59: 872 - SEPTICEMIA OR SEVERE SEPSIS W/O MV ***96+*** HOURS W/O MCC
Row 60: 872 - SEPTICEMIA OR SEVERE SEPSIS W/O MV ***>96*** HOURS W/O MCC

Row 3: 003 - ECMO OR TRACH W MV ***96+*** HRS OR PDX EXC FACE, MOUTH & NECK W MAJ 
Row 4: 003 - ECMO OR TRACH W MV ***>96 HRS*** OR PDX EXC FACE, MOUTH & NECK W MAJ 

标签: rdata-cleaning

解决方案


uniqdrg <- unique(drgs, incomparables = FALSE )
uniqdrg$drg <- substr(uniqdrg$drg, 0, 3)
uniqdrg <- uniqdrg %>% arrange(drg)
uniqdrg<-uniqdrg[uniqdrg$drg %in% uniqdrg$drg[duplicated(uniqdrg$drg)],]

我使用此代码查找重复值。


推荐阅读