r - 在 R 中查找 2 个数据集之间的公共部分字符串
问题描述
我有两个数据集——一个包含 100 万家公司的列表,另一个包含 15,000 家公司。我需要找到这两者共有的公司。问题是名称不完全相同,因此我需要进行部分匹配。例如:在数据库 1:ABC Industries,在数据库 2:ABC。我可以使用 R 匹配这两行吗?
PS - 我是 R 的初学者,但愿意快速学习。
解决方案
# short names
short <- c("ABC", "BCA")
# long names
long <- c("ABC industry", "TATA consultancy", "BFH printing", "HMC BCA", "ABC", "BCA corporation")
# using grep to find short names in long names column
long[grep(paste0(short, collapse = "|"), long)]
#> [1] "ABC industry" "HMC BCA" "ABC" "BCA corporation"
由reprex 包(v0.2.1)于 2019 年 4 月 25 日创建
推荐阅读
- shopify - Shopify:删除空格循环
- django - 在 Wagtail 管理员中,是否有与 Django 管理员的 save_model 方法等效的方法?
- sql - Codeigniter 迁移:有没有办法自动修改表?
- bitcoin - 如何查找 LN 中的所有节点和连接?
- vue.js - 单击列表项内的元素不起作用 - VueJS
- vhdl - 需要将 Verilog graycode 函数转换为 vhdl
- python - 从函数返回字符串列表,而不是包含列表的单个字符串
- tr - 在 tr 命令中使用 -c 选项时没有结果
- python - 处理 tar 文件时出错(退出状态 1):写入 /usr/lib/python2.7/ensurepip/_bundled/pip-9.0.3-py2.py3-none-any.whl:设备上没有剩余空间
- python - 如何清理 PSQL LIKE 查询以防止注入攻击 - SQALCHEMY PYTHON