首页 > 解决方案 > 如何清理 R 或 Excel 中的地址数据?

问题描述

我有一个包含不必要信息的地址列表。我想删除第一个,和第二个之间的字符串,,包括逗号。例如:527 TEST RD, APT 22, EDINBURG, TX 我想做527 TEST RD, EDINBURG, TX

我怎样才能实现它?

标签: rregexexcel

解决方案


在 base R 中,您可以使用sub来提取两个捕获组中所需的数据。第一个是第一个逗号之前的所有内容,第二个是在第二个逗号之后提取的所有内容。

x <- "527 TEST RD, APT 22, EDINBURG, TX"
sub("(.*?,).*?,(.*)", "\\1\\2", x)
#[1] "527 TEST RD, EDINBURG, TX"

推荐阅读