首页 > 解决方案 > 如何在 R 中对 textstem 的词典进行大量补充?

问题描述

我试图分析大量自由文本调查评论。我使用了 textstem 包来执行词形还原,但是在查看了它识别的唯一标记之后,我想进行进一步的调整。例如,它将“abuses”、“abused”和“abusing”标识为引理“abuse”,但它没有触及“abusive”……我也想将其更改为“abuse”。

我发现这篇文章描述了如何零碎地添加到词典中,例如

lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)

但就我而言,我将拥有一个包含数百个令牌/引理对的数据框。如何快速将它们全部添加到 lexicon::hash_lemmas?

标签: rtextnlplemmatization

解决方案


呃……

new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]

然后big_lemmas用作字典


推荐阅读