nlp - 使用 R 中的“tm”库将元数据添加到 VectorSource 语料库
问题描述
我有一个 csv 文件,我正在尝试将其转换为 Corpus 以便稍后使用 tm_map 并应用一些聚类。
我读了文件
data <- read.csv("data.csv", header = TRUE, sep = ",",stringsAsFactors = FALSE)
把我需要的东西变成语料库
corp <- Corpus(VectorSource(data$text))
这是元数据的结果
> meta(corp[[1]])
author : character(0)
datetimestamp: 2019-09-20 20:48:45
description : character(0)
heading : character(0)
id : 1
language : en
origin : character(0)
然后我尝试添加作者信息,这样我就可以在之后添加日期和标题,就像这样
> for(i in 1:length(corp)) {
+ corp[[i]]$meta$author == data$author[i]
+ }
但我不断得到这个
> abstract[[1]]$meta$author
character(0)
> meta(abstract[[1]], tag = 'author')
character(0)
什么时候
> data$author[1]
[1] "Juan Vásquez Córdoba"
如何将正确的元数据信息添加到我的语料库?
解决方案
我发现答案,对象语料库必须是这样的:
corp <- VCorpus(VectorSource(data$text))
有了V,一切顺利
推荐阅读
- amazon-web-services - AWS rds 代理未释放与数据库的连接
- javascript - 如何用更少的代码在 Javascript 类中分配多个属性?
- laravel - Windows下Apache对符号链接的处理
- excel - Excel:如何按照模式连接单元格?(单元格不在同一行!)
- python - 可以用更快的方式代替第一个循环,比如更多的矩阵运算吗?
- android - Android Studio - 我找不到“libs”文件夹
- regex - 如何使用正则表达式或 preg_match 提取引号内的文本?
- rust - 如何匹配所有空格?
- firebase - Flutter订阅/查询云火库中一个文件中的一个字段
- javascript - 我的 angular10 应用程序中多部分/表单数据的图像上传 API 错误