r - 如何将部分匹配的 ID 子集化到数据框中
问题描述
我正在尝试对数据进行子集化以在新数据框中创建可能重复的列表。问题是名称的格式不同,可能只有一小部分 ID 可能实际匹配。
我需要 R 输出可能重复的列表供我检查
我发现了一些有关格式问题的示例,或者当它是您尝试匹配的前几个字符时。我不确定如何将代码放在一起,匹配的字符可能在名称中的任何位置。
到目前为止,这似乎让我最接近,但我仍然不确定如何将代码应用到我的工作中。
这就是我的数据的样子(但有 1000000 行):
Supplier.Name Date.of.Record BMCC.avg
SG & JM Hammond 2018-07-21 292.2381
Mileshan Nominees Pty Ltd 2018-12-21 130.0000
RW & GJ Brown & Sons 2018-02-21 162.8333
BD & BA Smith 2018-02-21 478.0000
最后,我想要一个基于部分匹配的可能重复列表(可能连续 4 或 5 个字符?)
现在我似乎根本无法编写代码。即使是一些起点建议也会有所帮助。谢谢!
解决方案
推荐阅读
- mysql - Sequelize 删除父项时删除孤儿
- android-studio - Kotlin 通过单击按钮更改值
- python - 获取连接的邻居节点的节点属性
- sql - 运行查询时遇到除以零错误
- .htaccess - 4 级子域重定向而不使用 .htaccess 更改 URL
- google-sheets - 如何在谷歌表格中设置组
- python - 如何遍历 JSON 数据中的键
- python - 此代码是否变慢(或包含其他不需要的输入?) - Python 3
- python - 小部件不能居中
- sql-server - 为什么连字符在 SQL Server 中比较 varchars 和比较 nvarchars 时会产生差异?