首页 > 解决方案 > 在整个语料库上训练词向量?

问题描述

我正在我的语料库上训练 word2vec 模型,我的一个朋友问我在整个语料库上训练 word2vec 模型是否正确?因为在创建词嵌入时我使用了整个语料库,所以基本上我是以这些向量的形式将测试信息泄露给我的网络,这在训练神经网络时并不理想。

相反,假设我使用谷歌或任何其他来源的预训练词嵌入,如果他们在创建这些嵌入时使用相同的文档,我将使用它来测试我的网络,我会泄漏反正信息。

所以我的问题是训练 word2vec 的正确方法是什么?

标签: nlpdeep-learningword2vecword-embedding

解决方案


推荐阅读