r - 使用 R 对预定组中的单词进行分类
问题描述
我目前正在从事一个偶然发现问题的项目。
我有一列包含短字符串,例如:
- 新闻发布会
- 广播节目
- 电视广告
- 在凤凰城的演讲
如果我可以将这些句子简化为类别,那将是非常有益的。由于我有很多观察,我希望R可以为我做这件事。
举个例子,我想把上面的例子分类为:
- 会议
- 收音机
- 广告
- 演讲
你会如何处理这个问题?总共将有大约 20 个预定类别,只有当字符串包含与类别名称相似的单词时,才应在其中添加字符串。
我希望我已经为您提供了足够的信息来帮助我:-)
最好的问候, 拉斯
解决方案
使用图书馆stringr
:
v <- c("a news conference",
"a radio show",
"a TV ad",
"a speech in Phoenix")
categories <- c("conference",
"radio",
"ad",
"speech")
library(stringr)
str_extract(v, paste0(categories, collapse = "|"))
[1] "conference" "radio" "ad" "speech"
您也可以通过使用stringr::regex
忽略大小写来使其更加灵活:regex(paste0(...), ignore_case = T)
推荐阅读
- google-cloud-platform - 如果我已将唯一管理员更改为普通用户,如何重新获得计费帐户管理员访问权限?
- javascript - 在 VSCode 中声明一个 Javascript 全局命名空间对象
- node.js - 使用 sequelize 检索链接状态字段的值
- python - Rearrange ansible output
- ios - 颤动的ios应用程序无法在真实设备中运行
- openedge - 我们有 Progress 4GL 的在线 IDE 吗?
- javascript - 一起使用 Websocket 和 http 服务器
- mysql - Error in using NodeJs API for searching data in mysql query
- laravel-5 - 如何使用 Gupshup API 在 whatsup 群组上发送消息
- single-sign-on - 带有 ADFS 的 OWA SSO 在 Firefox 上失败