首页 > 解决方案 > 如何为 ngram 列表创建频率表

问题描述

我有一个如下指定的二元组列表:

     test_test_bigram

   1:         I would

   2:      would like

   3:         like to

   4:        to thank

   5:       thank the
  ---                
4792: design features

4793:      features .

4794:        . Return

4795:       Return to

4796:         to text

我已将其转换为数据表,我想为每个 ngram(每一行)的频率创建一列。有人可以建议吗

另外,您能否介绍一下如何在 Ngrams 的情况下在 R 中进行情绪分析,我使用感测器进行逐行情绪分析,使用感测器进行“词袋”方法(单个词)

标签: r

解决方案


您可以使用 tidyverse:

library tidyverse
test_test_bigram %>% distinct() %>% add_count()

如果您的二元数据集已经具有唯一值,您可以跳过distinct()


推荐阅读