首页 > 解决方案 > 使用 stringdist_join() 的左连接返回的行数多于开始时的行数。

问题描述

我只是在使用 stringdist_join() 进行左连接并且遇到了麻烦,因为我的输出比我原来的“左”数据框有更多的行。

  nrow(records_nona)
   #output : 603

  nrow(institutions)
  # output : 981

  records_nona <- stringdist_left_join(records_nona, institutions, 
   by = c("tm_1_undergradu" = "Institution.Name"))

  nrow(records_nona)
  # output: 635

我不确定,为了让这成为可能,我可能会在这里搞砸什么。或者我对左连接的理解是错误的。任何指导将不胜感激,谢谢。

标签: rstringboolean-logic

解决方案


我能够找出解决方案,由于连接的近似,左连接产生了重复,所以我只需要减少 max_dist = 1。(默认值为 max_dist = 2)。我现在有了正确的行数。


推荐阅读