r - Quanteda 摘要(语料库)返回的变量类型是什么意思?
问题描述
我正在研究 R 中的 quanteda 包,但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。
require(quanteda)
require(readtext)
现在我创建语料库:
immig_corp <- corpus(data_char_ukimmig2010,
docvars = data.frame(party = names(data_char_ukimmig2010)))
现在我想展示一些关于我刚刚创建的语料库的信息。类型是摘要(语料库)始终给出的通用属性之一。
summary(immig_corp)
这一点返回给我以下信息:
Corpus consisting of 9 documents:
Text Types Tokens Sentences party
BNP 1125 3280 88 BNP
Coalition 142 260 4 Coalition
Conservative 251 499 15 Conservative
Greens 322 679 21 Greens
Labour 298 683 29 Labour
LibDem 251 483 14 LibDem
PC 77 114 5 PC
SNP 88 134 4 SNP
UKIP 346 723 27 UKIP
解决方案
让我们专注于immig_corp <- corpus(data_char_ukimmig2010)
. 这将返回以下内容:
Corpus consisting of 9 documents:
Text Types Tokens Sentences
BNP 1125 3280 88
Coalition 142 260 4
Conservative 251 499 15
Greens 322 679 21
Labour 298 683 29
LibDem 251 483 14
PC 77 114 5
SNP 88 134 4
UKIP 346 723 27
现在Text
是文档名称。Sentences
是文档中的句子数。Tokens
是文本中的记号数,是文本Types
中唯一记号的数量。因此,对于 BNP,有 1125 个唯一标记、3280 个标记和 88 个句子。
您可以按如下方式重新创建计数:
# Sentences
nsentence(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
88 4 15 21 29 14 5 4 27
# Tokens
ntoken(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
3280 260 499 679 683 483 114 134 723
# Types
ntype(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
1125 142 251 322 298 251 77 88 346
推荐阅读
- react-native - “Expo 开发人员工具已与 Expo CLI 断开连接。” 尝试运行本机项目时
- yaml - 如果我添加没有双引号的环境变量,kubectl 编辑将不起作用
- flutter - [FLUTTER]:我可以在 iOS 和 Android 的 Flutter App 中分别设置多少个通知?
- python - 使用 .apply() 方法时在最后一次迭代后获取 ValueError
- r - R:动画值向量
- c++ - 如何在放置 .cpp 文件的目录中创建目录?
- pandas - 将术语-文档矩阵限制为最常见的一元组
- c# - 如何使用 Bing 地图检索邮政地址的纬度和经度?
- javascript - 为什么 React.memo 没有按预期工作?
- python-3.x - 正则表达式中缺少前导或尾随空格会使搜索无效