首页 > 解决方案 > R 中的二元组如何处理 1 个字的输入?

问题描述

我正在对一组调查响应数据集进行一些 NLP 工作(使用 tidy)。当我得到我的二元组和三元组计数时,我看到了一些奇怪的结果——结果包括数据集中不存在的二元组和三元组。

Bigram 示例包括:

三元组示例包括:

这是我的代码:

# bigram counts
bigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 2,
              input = survey_response)

# trigram counts
trigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 3,
              input = survey_response)

我不认为这是一个代码问题,因为我之前以这种方式选择了二元组和三元组并且没有遇到这个问题。

我想知道survey_response输入中的单字响应是否会导致问题。有很多答案只有“是”或“否”。当输入观察只有一个词时,R 如何处理二元组或三元组的构造?它会以某种方式重复这个词,还是导致其他问题?

标签: rnlp

解决方案


推荐阅读