首页 > 解决方案 > 在 R 中使用整洁的文本挖掘重新编码句子标记

问题描述

我正在尝试使用 R 中的整洁文本挖掘来分析对调查的定性响应。我已经通过句子标记了我的数据。在某些情况下,我发现在一个句子中,参与者报告了我想分别分析的多种行为(例如“苹果和橙子”)。是否可以在标记化阶段重新编码初始数据以将它们分开?我尝试通过使用以下代码在行为之间添加句号来分隔数据,但它没有奏效:

data <- data %>% mutate(behaviour = recode(column, "apples and oranges" = "apples. Oranges")) tidy_text_data <- data %>% unnest_tokens(output = "sentences", input = behaviour, token = "sentences")

有什么建议么?

标签: rnlptext-miningtidytext

解决方案


推荐阅读