首页 > 解决方案 > 如何从R字符串中提取某些单词?

问题描述

我对解析数据比较陌生。

我有一个包含以下示例文本数据的数据集,该数据集非常遵循这种格式:

"Blessed to receive an offer from Texas State University." 
"Blessed to receive an offer from Columbia University."

在“来自”之后提取学校名称的好方法是什么?

我知道 stringr 和 pattern,但似乎找不到正确提取学校名称变化的方法。

标签: rstringr

解决方案


使用str_extract(并假设所有 uni 名称后紧跟一个句点):

data <- c("Blessed to receive an offer from Texas State University.", 
          "Blessed to receive an offer from Columbia University.")
UniNames <- str_extract(data, "(?<=from\\s).*(?=\\.)")

结果:

UniNames
[1] "Texas State University" "Columbia University"

推荐阅读