首页 > 解决方案 > 在 R 中查找 2 个数据集之间的公共部分字符串

问题描述

我有两个数据集——一个包含 100 万家公司的列表,另一个包含 15,000 家公司。我需要找到这两者共有的公司。问题是名称不完全相同,因此我需要进行部分匹配。例如:在数据库 1:ABC Industries,在数据库 2:ABC。我可以使用 R 匹配这两行吗?

PS - 我是 R 的初学者,但愿意快速学习。

标签: r

解决方案


# short names
short <- c("ABC", "BCA")
# long names
long <- c("ABC industry", "TATA consultancy", "BFH printing", "HMC BCA", "ABC", "BCA corporation")

# using grep to find short names in long names column
long[grep(paste0(short, collapse = "|"), long)]
#> [1] "ABC industry"    "HMC BCA"         "ABC"             "BCA corporation"

reprex 包(v0.2.1)于 2019 年 4 月 25 日创建


推荐阅读