r - 如何在 R 中对 textstem 的词典进行大量补充?
问题描述
我试图分析大量自由文本调查评论。我使用了 textstem 包来执行词形还原,但是在查看了它识别的唯一标记之后,我想进行进一步的调整。例如,它将“abuses”、“abused”和“abusing”标识为引理“abuse”,但它没有触及“abusive”……我也想将其更改为“abuse”。
我发现这篇文章描述了如何零碎地添加到词典中,例如
lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)
但就我而言,我将拥有一个包含数百个令牌/引理对的数据框。如何快速将它们全部添加到 lexicon::hash_lemmas?
解决方案
呃……
new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]
然后big_lemmas
用作字典
推荐阅读
- reactjs - 尝试代理模式时,Set-Cookie 在 Heroku 上被阻止
- excel - 仅通过鼠标单击而不是通过键盘显示从一个单元格到另一个单元格的值
- sql - 添加具有特定值的新列:SQL
- oauth-2.0 - 如何从 IdentityServer4 上的 DeviceCodes 表中检索/解密 DeviceCode
- css - 使图像适合小弹出框 - React.js + Bootstrap
- php - Messenger 聊天机器人发送的消息过多
- java - 由于 RuntimeException,我的应用程序不断崩溃
- python - Python + Selenium:在这种情况下,哪个“find_element_by”替代套件?
- flutter - 在 Flutter Redux StateConnector 中返回除 Widget 以外的其他对象
- java - PMD Maven 插件忽略内部类的排除属性值