r - 使用带有 textTinyR (Doc2Vec) 的预保存词向量的文件路径
问题描述
我正在熟悉 R 中一个名为 textTinyR 的新包,它有助于从单词级嵌入创建文档级嵌入。为此,它需要保存在本地系统/机器中的 word_vectors.txt。这个想法是运行它并将结果用于主要用于社交媒体的文本聚类。在运行此包的 Doc2Vec 方法之前,已经考虑了预处理的某些方面(包括创建词向量 - 使用 text2vec 的 Glove 方法完成)。
以下代码片段用于此任务,所有计算都在指定的工作目录中完成:
write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)
doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)
但是,最后一行会导致错误:
reduce_word_vectors 中的错误(self$word_vector_FILE,private$unq_tok,:期望字符串向量:[type=list; required=STRSXP]。
我已经尝试了几个指定路径的版本,将以下内容传递给 Doc2Vec 方法的 word_vector_FILE 参数,但它们也会导致相同的错误:
- word_vector_FILE = paste(c('..', '/Doc2Vec/', 'word_vectors.vec'),
- word_vector_FILE = "word_vectors.txt"。
我还将 word_vector 文件保存在 textTinyR 文件夹中,如其文档中所示(并且有一个虚拟 word_vec.txt 文件并使用了命令:PATH = system.file("example_files", "word_vectors.txt", package = "textTinyR" ) 并将此文件路径传递给 Doc2Vec 方法,但错误仍然存在。
示例词向量文件可以从以下链接下载: https ://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94
有人可以分享他们关于如何确保文件被正确读取的建议吗?提前感谢您的投入。
解决方案
推荐阅读
- asp.net - Unique serial number generation - Entity Framework ASp.net MVC
- django - Django: How to load dynamic data to chartjs
- paypal - Paypal:如何将响应者中的结帐 ID 与仪表板中的交易 ID 相关联?
- mysql - 是否不可能有一个检查约束引用一个也有外键的列?
- php - On an archive page i use a function add to cart with quantity selection. However i want to use AJAX instead of this form. How to achieve this?
- python-3.x - 如何为数据框的每一行使用函数 - .apply?.map .mask?
- flutter - 如何防止 setState 在颤振中重建
- sql - AS400 - 令牌“!” 无效
- windows - 如何调试 Postgres 扩展?
- deep-learning - 游戏期间在部分可观察环境中是否需要蒙特卡洛树搜索?