首页 > 解决方案 > R:提取数据集的语法相似条目

问题描述

我有一个相当大的数据集,其中包括数百个公司名称,看起来像这样:

Name:
Earth Ltd.
Rocket International LLC
Space Corp LLC
Space Corporation LLc
Space International Corporation Ltd
Satellite Global

有些条目只是不同的拼写(有时是拼写错误或重命名)或(出于我的目的)同一家公司。我正在尝试将这些不同的拼写合并为一个一致的版本,例如Space Corp LLC, Space Corporation LLc, Space International Corporation Ltd转换为 Space Corp. LLC.

是否有脚本或包可以让我提取语法或其他类似条目,以便我可以查看需要折叠哪些条目?

非常感谢!

标签: rextractsimilarity

解决方案


这是否有效:

corp <- c( 'Earth Ltd.', 'Rocket International LLC', 'Space Corp LLC', 'Space Corporation LLc', 'Space International Corporation Ltd', 'Satellite Global')
corp <- data.frame(name = corp)
library(stringr)
library(dplyr)
corp
                                 name
1                          Earth Ltd.
2            Rocket International LLC
3                      Space Corp LLC
4               Space Corporation LLc
5 Space International Corporation Ltd
6                    Satellite Global
 
corp %>% mutate(newcol = str_replace_all(name, 'Space Corp LLC|Space Corporation LLc|Space International Corporation Ltd', 'Space Corp. LLC'))
                                 name                   newcol
1                          Earth Ltd.               Earth Ltd.
2            Rocket International LLC Rocket International LLC
3                      Space Corp LLC          Space Corp. LLC
4               Space Corporation LLc          Space Corp. LLC
5 Space International Corporation Ltd          Space Corp. LLC
6                    Satellite Global         Satellite Global
> 

推荐阅读