首页 > 解决方案 > 如何将部分匹配的 ID 子集化到数据框中

问题描述

我正在尝试对数据进行子集化以在新数据框中创建可能重复的列表。问题是名称的格式不同,可能只有一小部分 ID 可能实际匹配。

我需要 R 输出可能重复的列表供我检查

我发现了一些有关格式问题的示例,或者当它是您尝试匹配的前几个字符时。我不确定如何将代码放在一起,匹配的字符可能在名称中的任何位置。

到目前为止,这似乎让我最接近,但我仍然不确定如何将代码应用到我的工作中。

使用具有多个条件的部分匹配对 df 进行子集

这就是我的数据的样子(但有 1000000 行):

Supplier.Name Date.of.Record BMCC.avg
SG & JM Hammond     2018-07-21 292.2381
Mileshan Nominees Pty Ltd     2018-12-21 130.0000
RW & GJ Brown & Sons     2018-02-21 162.8333
BD & BA Smith     2018-02-21 478.0000

最后,我想要一个基于部分匹配的可能重复列表(可能连续 4 或 5 个字符?)

现在我似乎根本无法编写代码。即使是一些起点建议也会有所帮助。谢谢!

标签: rduplicates

解决方案


推荐阅读