python - lmmatized多少字?
问题描述
在包含 1000 个文本的数据框中,在进行预处理词形还原后,如何找出每个文本中有多少词被词形还原?
解决方案
为什么你的模型只运行了 3 个 epoch?我建议你运行它大约 20 个 epoch,然后看看验证准确性是否没有降低。而事情,我可以告诉你的是,你需要改变你的这行代码:
model.add(Embedding(300000,60,input_length=300))
对此:
model.add(Embedding(k, 60,input_length=300))
您可以将 k 设置为 256 或 512 或接近它们的数字。但是 300000 实在是太多了。这样,当主要工作是编码器和解码器时,您的网络将更多地关注嵌入层。
另一件事,您应该在编码器和解码器中增加您的 LSTM 单元(可能增加到 128 或 256 之类的数字),并删除recurrent_dropout 参数(因为您在编码器之后使用dropout 层退出)。如果这仍然没有帮助,那么您甚至可以将 Batch Normalization 层添加到您的模型中。
推荐阅读
- ios - 制作视图控制器原型的好方法是什么?
- python - Python:从另一个字符串的开头提取某个字符串
- java - 如何正确使用反射(特殊情况)JAVA
- ruby-on-rails - 什么是 Ruby module.included?
- python - print() 字典的所有项目,Python 3.8.2
- python - 如何将 zipf 曲线添加到词频条形图中?
- python - 如何使用多处理读取大文件?
- python - 如何在导入包“nltk”后但在执行“nltk.downloader”之前解决在 sys.modules 中发现的 RuntimeWarning:“nltk.downloader”?
- php - 我如何验证 Laravel 中的前三个字符?
- python - Python参数错误未传递正确信息