nlp - 在整个语料库上训练词向量?
问题描述
我正在我的语料库上训练 word2vec 模型,我的一个朋友问我在整个语料库上训练 word2vec 模型是否正确?因为在创建词嵌入时我使用了整个语料库,所以基本上我是以这些向量的形式将测试信息泄露给我的网络,这在训练神经网络时并不理想。
相反,假设我使用谷歌或任何其他来源的预训练词嵌入,如果他们在创建这些嵌入时使用相同的文档,我将使用它来测试我的网络,我会泄漏反正信息。
所以我的问题是训练 word2vec 的正确方法是什么?
在创建词向量之前分离测试和训练数据?
在整个语料库上创建词向量?
解决方案
推荐阅读
- php - 如何在recyclerview中显示为特定事件或项目注册的用户计数并在android的textview上显示?
- python - CS1301xl Computing in Python 我练习考试抵押问题的公式可能不正确?
- oauth-2.0 - IdentityServer4 JWT范围作为空格分隔的字符串而不是数组?
- flutter - 如何在飞镖/颤振中计算 GeoJson 几何区域
- java - 我在 2 个不同的 hazelcast 成员中有相同的实体(例如:“mapOfA,mapOfB”)。我想从一个成员同步更新这个对象。可能吗?
- regex - 结合2个正则表达式
- android - 如何创建类似嵌套标签栏的 Play 商店?
- java - 从 Mule 中的端点捕获错误 java 响应
- excel - 如果有,则在破折号“-”后提取数字
- flutter - 如何解决 Flutter for Web 中的 Web 开发服务器错误?