首页 > 解决方案 > 具有深度学习的文本特征重复值,例如 LSTM

问题描述

我只是想知道,如果我的 LSTM 模型有重复文本值的数据集会发生什么,它会影响训练,或者它会过度拟合?提前致谢

标签: pythondatabasedeep-learninglstmrecurrent-neural-network

解决方案


根据你有多少重复,训练的效果可能是相当透明的。在极端情况下,如果它们太多,它就不能很好地泛化,因为你的数据集会人为地大,但缺乏多样性来很好地泛化。

重复的最大问题影响是当它们的标签(或目标值)不同但它们的特征相同时。如果训练和预测太多,这可能会严重影响训练和预测。


推荐阅读