machine-learning - 为预训练的 word2vec 模型添加更多词汇
问题描述
帮我纠正这个问题还是有其他方法可以完成这项任务?
解决方案
build_vocab()
需要一个文本列表(令牌列表列表)——你只是给它一个单词列表,所以每个单词都被认为是一个单独的文本,并且是你的代码可能添加的唯一新单词是单个字母。
但是也:
min_count=1
通常不利于矢量质量epochs=150
比通常的 5-10 次迭代要高得多——略高于这可能对小型数据集有帮助,但 100+ 是过多的- 逐步添加词汇/训练不一定会改善您的模型;特别是当您使用不包括整个词汇表(和使用范围)的新示例进行训练时,模型中只有一些单词会得到调整——并且可能会与仅从早期训练中知道的其他单词不对齐
当有新文本包括新词时,最稳健的做法是重新训练整个模型,将所有新旧文本混合在一起。这可以最好地确保所有单词之间的同等关注和兼容的坐标。
如果您使用新文本进行增量训练,无论是否扩大了词汇量,您都应该仔细观察您对整体模型质量的任何自定义评估,以确保您所做的事情是有帮助的。
推荐阅读
- python - 如何在训练 CNN 期间删除重复项?
- r - R - 在多列上执行 Zoo rollapply/rollmean
- git - 如何使用部署密钥克隆仓库?
- python - 如何从类中的函数配置类对象方法?
- python - 边缘内的颜色渐变
- reactjs - 当父组件突然卸载并且无法及时更新状态时,如何停止react-mic的记录器?
- google-cloud-platform - 如何通过 API 检索 Dialogflow 的使用指标?
- c++ - 具有不同类型的 CUDA 每线程数组
- amazon-web-services - Py4JJavaError:调用 o57.showString 时出错。: org.apache.spark.SparkException:
- apache-kafka - 如何防止我的 Kafka Streams 应用程序进入 ERROR 状态?