首页 > 解决方案 > 使用 R 对预定组中的单词进行分类

问题描述

我目前正在从事一个偶然发现问题的项目。

我有一列包含短字符串,例如:

如果我可以将这些句子简化为类别,那将是非常有益的。由于我有很多观察,我希望R可以为我做这件事。

举个例子,我想把上面的例子分类为:

你会如何处理这个问题?总共将有大约 20 个预定类别,只有当字符串包含与类别名称相似的单词时,才应在其中添加字符串。

我希望我已经为您提供了足够的信息来帮助我:-)

最好的问候, 拉斯

标签: rnlpgrouping

解决方案


使用图书馆stringr

v <- c("a news conference",
       "a radio show",
       "a TV ad",
       "a speech in Phoenix")

categories <- c("conference",
                "radio",
                "ad",
                "speech")

library(stringr)
str_extract(v, paste0(categories, collapse = "|"))
[1] "conference" "radio"      "ad"         "speech"    

您也可以通过使用stringr::regex忽略大小写来使其更加灵活:regex(paste0(...), ignore_case = T)


推荐阅读