首页 > 解决方案 > 应用字典后如何在 quanteda 中查看标记

问题描述

这是我第一次在这里提问,如果我处理不当,请原谅。我使用 R 包 quanteda 来分析文本文档。

我现在的问题是,我想在应用我开发的字典后查看文本。为了应用字典,我对语料库进行了标记,但后来我找不到允许我查看标记化文本的函数或方法。我查看了 quanteda 网站和备忘单,但找不到任何解决方案。这基本上是我的代码的重要部分:

tokens_text_dict <- tokens_text %>% 
  tokens_lookup(dict_Info_priv, exclusive = FALSE)

编辑:将代码从评论移到问题:

text1 <- "a b c"
corpus1 <- corpus(text1)
tokens <- tokens(corpus1)
dict1 <- dictionary(list(A = "a")
tokens1_dict <- tokens_text %>% 
   tokens_lookup(dict1, exclusive = FALSE)

我正在寻找可以给出“A b c”的命令,它现在应该在 tokens1_dict 中。

我会很感激一些帮助!

最好的祝愿

雅尼克

标签: rnlpaccess-tokentext-miningquanteda

解决方案


有两种简单的方法可以查看您的代币。在 quanteda v2 中,有用于将令牌对象打印到控制台的选项。(见?`print-quanteda`

> print(tokens1_dict, max_ndoc = -1, max_ntok = -1)
Tokens consisting of 1 document.
text1 :
[1] "A" "b" "c"

或者,可以使用该View()函数调用 display 方法来检查列表(其中的令牌对象是一种特殊类型)。通过单击环境窗格中的对象名称,也会在 RStudio 中触发此操作。

> View(tokens1_dict)

在此处输入图像描述


推荐阅读