r - 在 R 中使用整洁的文本挖掘重新编码句子标记
问题描述
我正在尝试使用 R 中的整洁文本挖掘来分析对调查的定性响应。我已经通过句子标记了我的数据。在某些情况下,我发现在一个句子中,参与者报告了我想分别分析的多种行为(例如“苹果和橙子”)。是否可以在标记化阶段重新编码初始数据以将它们分开?我尝试通过使用以下代码在行为之间添加句号来分隔数据,但它没有奏效:
data <- data %>% mutate(behaviour = recode(column, "apples and oranges" = "apples. Oranges")) tidy_text_data <- data %>% unnest_tokens(output = "sentences", input = behaviour, token = "sentences")
有什么建议么?
解决方案
推荐阅读
- c# - NumberFormatInfo 设置
- python - 确定一个值是否超过另一个值的函数
- java - 我想在集合的所有文档中保存相同的字符串
- javascript - 通过 Cloud Functions 删除整个集合
- mysql - 默认情况下,所有 knex 查询都在事务中运行吗?
- c-preprocessor - 在预处理器 if 语句中定义 C 宏
- csv - plotly dash:如何获取 csv 的标题作为下拉选项
- jquery - 在 CoffeeScript 范围内更改变量值
- html - 使用 iFrame 无法显示嵌入的网页
- spotfire - Spotfire:如果子值之一为空,如何使给定 ID 的所有值都为空