首页 > 解决方案 > Quanteda 摘要(语料库)返回的变量类型是什么意思?

问题描述

我正在研究 R 中的 quanteda 包,但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。

require(quanteda)
require(readtext)

现在我创建语料库:

immig_corp <- corpus(data_char_ukimmig2010, 
                 docvars = data.frame(party = names(data_char_ukimmig2010)))

现在我想展示一些关于我刚刚创建的语料库的信息。类型是摘要(语料库)始终给出的通用属性之一。

summary(immig_corp)

这一点返回给我以下信息:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences        party
         BNP  1125   3280        88          BNP
   Coalition   142    260         4    Coalition
Conservative   251    499        15 Conservative
      Greens   322    679        21       Greens
      Labour   298    683        29       Labour
      LibDem   251    483        14       LibDem
          PC    77    114         5           PC
         SNP    88    134         4          SNP
        UKIP   346    723        27         UKIP

标签: rquanteda

解决方案


让我们专注于immig_corp <- corpus(data_char_ukimmig2010). 这将返回以下内容:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences
          BNP  1125   3280        88
    Coalition   142    260         4
 Conservative   251    499        15
       Greens   322    679        21
       Labour   298    683        29
       LibDem   251    483        14
           PC    77    114         5
          SNP    88    134         4
         UKIP   346    723        27

现在Text是文档名称。Sentences是文档中的句子数。Tokens是文本中的记号数,是文本Types中唯一记号的数量。因此,对于 BNP,有 1125 个唯一标记、3280 个标记和 88 个句子。

您可以按如下方式重新创建计数:

# Sentences
nsentence(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
          88            4           15           21           29           14            5            4           27 

# Tokens
ntoken(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        3280          260          499          679          683          483          114          134          723 

# Types
ntype(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        1125          142          251          322          298          251           77           88          346 

推荐阅读