python - 具有深度学习的文本特征重复值,例如 LSTM
问题描述
我只是想知道,如果我的 LSTM 模型有重复文本值的数据集会发生什么,它会影响训练,或者它会过度拟合?提前致谢
解决方案
根据你有多少重复,训练的效果可能是相当透明的。在极端情况下,如果它们太多,它就不能很好地泛化,因为你的数据集会人为地大,但缺乏多样性来很好地泛化。
重复的最大问题影响是当它们的标签(或目标值)不同但它们的特征相同时。如果训练和预测太多,这可能会严重影响训练和预测。
推荐阅读
- javascript - 单击导航链接时,如何缩短关闭导航的代码
- javascript - 我的后端代码在发出发布请求时抛出了 500 个错误,这是怎么回事?
- tensorflow - 如何解决“AttributeError:模块'google.protobuf.descriptor'没有属性'_internal_create_key”?
- c++ - 是否可以在 C++ 中基于给定标识符创建基类的新实例,反之亦然
- javascript - 根据矩阵B的排序对矩阵A进行排序
- javascript - 有没有办法在查询构建器的“with”子句中添加计数?
- three.js - 在组件内部的Aframe中导入threejs代码
- php - Laravel 发送带有降价的电子邮件不记录
- mysql - 使用 Inner Join/Group_Concat 更新两个表之间的 Inner Join 返回子查询错误
- angular - 无法在角度中设置未定义的属性?