r - R Tidy_text:计算字符串模式,而不是单词
问题描述
我希望计算向量(列)中博客标签的出现次数。这是专栏:
> head(df$tags)
[1] "blog / thank you / NSW / ndoa / " "election / WA / blog / voting system / "
[3] "blog / " "euthanasia / media / Labor / Qld / assisted suicide / "
[5] "abortion / SA / blog / abortion-to-birth / "
[6] "euthanasia / media / Tas / assisted suicide / mike gaffney / "
/'tag'/
是格式。我可以使用 tidy_text 通过以下代码计算单词:
wordCount <- df %>%
unnest_tokens(word, tags) %>%
anti_join(stop_words) %>%
count(word, sort = TRUE)
但是,这显然会破坏标签并仅计算单词。我需要计算标签本身的出现次数,而不是单个单词。
我实际上不知道从哪里开始,因此不胜感激。
解决方案
使用简单的 strsplit 即可
df %>%
mutate( word = strsplit( gdata::trim(tags), "\\s*\\/\\s*" ) ) %>%
unnest( cols=word )
我明白了:
> df
tags
1 blog / thank you / NSW / ndoa /
2 election / WA / blog / voting system /
3 blog /
4 euthanasia / media / Labor / Qld / assisted suicide /
5 abortion / SA / blog / abortion-to-birth /
6 euthanasia / media / Tas / assisted suicide / mike gaffney /
> df %>%
+ mutate( word = strsplit( gdata::trim(tags), "\\s*\\/\\s*" ) ) %>%
+ unnest( cols=word )
# A tibble: 23 x 2
tags word
<chr> <chr>
1 "blog / thank you / NSW / ndoa / " blog
2 "blog / thank you / NSW / ndoa / " thank you
3 "blog / thank you / NSW / ndoa / " NSW
4 "blog / thank you / NSW / ndoa / " ndoa
5 "election / WA / blog / voting system / " election
6 "election / WA / blog / voting system / " WA
7 "election / WA / blog / voting system / " blog
8 "election / WA / blog / voting system / " voting system
9 "blog / " blog
10 "euthanasia / media / Labor / Qld / assisted suicide / " euthanasia
# … with 13 more rows
>
这可能与您的其余数据流相关联。
推荐阅读
- azure - Azure 映像构建 - azure-arm:无法删除托管映像
- django - 更改通过熊猫创建的 html 表上的列名
- bash - 在 Mac OS 终端中按设定的时间批量更改文件创建日期
- react-native - 从商店响应本机自动更新
- audio - FFmpeg - 音频标签 | 加利西亚语
- azure - 将数据从 Azure 表存储迁移(和转换)到 Cosmos DB Sql API 的最佳方式
- apache-poi - Apache POI docx:HTML 作为带有照片的 altChunk
- powerbi - 使用过滤器从另一个表中获取最小日期
- snowflake-cloud-data-platform - PUT 命令中变量的使用
- c# - WHERE Name='{NameInput.Text}' AND Password='{GetHashString(PasswordInput.Text)} 不起作用