word-embedding - 快速文本无监督模型损失
问题描述
我想为我的 1GB 文本数据创建一个 fastText 无监督模型。我正在使用 fastText 命令行工具来实现模型训练过程。
./fasttext skipgram -input PlainText.txt -output FastText-PlainText- -dim 50 -epoch 50
以上是我用于创建单词表示的几个参数。
Read 207M words
Number of words: 501986
Number of labels: 0
Progress: 97.5% words/sec/thread: 87224 lr: 0.001260 avg.loss: 0.089536 ETA: 0h 4m 9s
在这里,在 fastText 命令的输出中,我看到了这个 avg.loss,并且学习率已从默认值 (0.5) 降低到 0.001。我不太明白,这个 avg.loss 是什么意思,为什么学习率会下降?
- 我是否应该增加 epoch 以使 fastText 更好地学习我的数据?
- 我可以使用任何损失函数来改善损失吗?如果是,什么样的损失函数会更好?
- 我如何评估我的 fastText 模型的学习是好是坏?
- 只是出于兴趣,我可以使用 wordngrams 让我的模型在无监督学习中更好地学习上下文吗?
解决方案
推荐阅读
- php - 如何为查询设置数据库时区?
- html - 使用 urllib 和请求获取页面的错误 HTML 内容
- python-3.x - I2C data-get in Python on Raspberry Pi 提供奇怪的数据
- javascript - 如何在 Tabulator 中每个嵌套组的第一行放置一个按钮?
- sql - 标记列中没有指定组合的项目
- c - GCC标志分配比需要更多的内存?
- android - 如何在 Android Jetpack Compose Text 中设置文本大小
- android - 在预览camerax android中获取所有文本框
- java - 我们可以使用 testng 而不是 junit 添加协议测试吗?
- c++ - 使用可变参数函数模板,我们可以设计一个至少可以用 2 个参数调用的函数吗?