首页 > 解决方案 > lmmatized多少字?

问题描述

在包含 1000 个文本的数据框中,在进行预处理词形还原后,如何找出每个文本中有多少词被词形还原?

标签: pythonnlplemmatization

解决方案


为什么你的模型只运行了 3 个 epoch?我建议你运行它大约 20 个 epoch,然后看看验证准确性是否没有降低。而事情,我可以告诉你的是,你需要改变你的这行代码:

    model.add(Embedding(300000,60,input_length=300))

对此:

   model.add(Embedding(k, 60,input_length=300))

您可以将 k 设置为 256 或 512 或接近它们的数字。但是 300000 实在是太多了。这样,当主要工作是编码器和解码器时,您的网络将更多地关注嵌入层。

另一件事,您应该在编码器和解码器中增加您的 LSTM 单元(可能增加到 128 或 256 之类的数字),并删除recurrent_dropout 参数(因为您在编码器之后使用dropout 层退出)。如果这仍然没有帮助,那么您甚至可以将 Batch Normalization 层添加到您的模型中。


推荐阅读