r - R:提取数据集的语法相似条目
问题描述
我有一个相当大的数据集,其中包括数百个公司名称,看起来像这样:
Name:
Earth Ltd.
Rocket International LLC
Space Corp LLC
Space Corporation LLc
Space International Corporation Ltd
Satellite Global
有些条目只是不同的拼写(有时是拼写错误或重命名)或(出于我的目的)同一家公司。我正在尝试将这些不同的拼写合并为一个一致的版本,例如Space Corp LLC, Space Corporation LLc, Space International Corporation Ltd
转换为 Space Corp. LLC
.
是否有脚本或包可以让我提取语法或其他类似条目,以便我可以查看需要折叠哪些条目?
非常感谢!
解决方案
这是否有效:
corp <- c( 'Earth Ltd.', 'Rocket International LLC', 'Space Corp LLC', 'Space Corporation LLc', 'Space International Corporation Ltd', 'Satellite Global')
corp <- data.frame(name = corp)
library(stringr)
library(dplyr)
corp
name
1 Earth Ltd.
2 Rocket International LLC
3 Space Corp LLC
4 Space Corporation LLc
5 Space International Corporation Ltd
6 Satellite Global
corp %>% mutate(newcol = str_replace_all(name, 'Space Corp LLC|Space Corporation LLc|Space International Corporation Ltd', 'Space Corp. LLC'))
name newcol
1 Earth Ltd. Earth Ltd.
2 Rocket International LLC Rocket International LLC
3 Space Corp LLC Space Corp. LLC
4 Space Corporation LLc Space Corp. LLC
5 Space International Corporation Ltd Space Corp. LLC
6 Satellite Global Satellite Global
>
推荐阅读
- shell - 是否有可能从值中提取字符串并转换为日期值
- sql - 如何在 oracle 12c 中使用多个数据更新单个列
- java - 爪哇 | GSON | 将 JSON 对象添加到现有 JSON 文件
- json - 无法使用 sqoop 导出将 Json 数据从 HDFS 导出到 Oracle
- r - 如何根据另一列的唯一值查找列值
- r - 使用 dplyr 选择前 n 个组,然后绘制其他变量
- javascript - 连续移动动画 React Native
- jenkins - 如何通过中间件从松弛触发詹金斯构建
- netbeans - Netbeans 10 中的文件夹/文件为灰色是什么意思?
- javascript - Strapi:如何上传图像并将其链接到模型?