r - R 中的二元组如何处理 1 个字的输入?
问题描述
我正在对一组调查响应数据集进行一些 NLP 工作(使用 tidy)。当我得到我的二元组和三元组计数时,我看到了一些奇怪的结果——结果包括数据集中不存在的二元组和三元组。
Bigram 示例包括:
- “是的是的”
- “不,不”
- “是不是”
三元组示例包括:
- “对对对”
- “不是的”
- “x不不”
这是我的代码:
# bigram counts
bigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 2,
input = survey_response)
# trigram counts
trigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 3,
input = survey_response)
我不认为这是一个代码问题,因为我之前以这种方式选择了二元组和三元组并且没有遇到这个问题。
我想知道survey_response
输入中的单字响应是否会导致问题。有很多答案只有“是”或“否”。当输入观察只有一个词时,R 如何处理二元组或三元组的构造?它会以某种方式重复这个词,还是导致其他问题?
解决方案
推荐阅读
- javascript - 使用 Excel 文件的 json 输入在地图中放置标记
- ruby-on-rails - 如何从 pg_search 多搜索中获取结果
- excel - 从 xml 文件中提取数据到 Excel 或 txt 文件
- sql - `?` 用于 SQL `IN` 条件的占位符,具有持久性的`rawSql`
- swift - 如何使用带有 UITabBarController 的 MVP 架构
- c++ - 在 UWP 应用程序中,future.wait() 在尝试同步来自异步方法的响应时一直等待
- jenkins - Automatically configure the docker cloud in Jenkins using groovy script
- android - 如何使用 EditText 停止正在运行的计时器?
- arrays - 当您在数组中执行 custum 对象时跳过 line powershell
- android - Android Firebase 上传图片的 URL 错误(问题:缺少 X-Goog-Upload-Comment 标头)