首页 > 解决方案 > 使用带有 textTinyR (Doc2Vec) 的预保存词向量的文件路径

问题描述

我正在熟悉 R 中一个名为 textTinyR 的新包,它有助于从单词级嵌入创建文档级嵌入。为此,它需要保存在本地系统/机器中的 word_vectors.txt。这个想法是运行它并将结果用于主要用于社交媒体的文本聚类。在运行此包的 Doc2Vec 方法之前,已经考虑了预处理的某些方面(包括创建词向量 - 使用 text2vec 的 Glove 方法完成)。

以下代码片段用于此任务,所有计算都在指定的工作目录中完成:

write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)

doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)

但是,最后一行会导致错误:

reduce_word_vectors 中的错误(self$word_vector_FILE,private$unq_tok,:期望字符串向量:[type=list; required=STRSXP]。

我已经尝试了几个指定路径的版本,将以下内容传递给 Doc2Vec 方法的 word_vector_FILE 参数,但它们也会导致相同的错误:

  1. word_vector_FILE = paste(c('..', '/Doc2Vec/', 'word_vectors.vec'),
  2. word_vector_FILE = "word_vectors.txt"。

我还将 word_vector 文件保存在 textTinyR 文件夹中,如其文档中所示(并且有一个虚拟 word_vec.txt 文件并使用了命令:PATH = system.file("example_files", "word_vectors.txt", package = "textTinyR" ) 并将此文件路径传递给 Doc2Vec 方法,但错误仍然存​​在。

示例词向量文件可以从以下链接下载: https ://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94

有人可以分享他们关于如何确保文件被正确读取的建议吗?提前感谢您的投入。

标签: rword2vecdoc2vec

解决方案


推荐阅读