python - 数据集中的唯一标识符,索引问题
问题描述
我的问题是关于使用 Scikit-Learn 和 TensorFlow 进行动手机器学习的书,有一段文字说:
如果您使用行索引作为唯一标识符,则需要确保新数据附加到数据集的末尾,并且不会删除任何行。
我不明白为什么删除一行会导致问题,如果我删除一行数据,然后使用 hashlib 拆分数据以获得训练集和测试集,测试集是相同的,没有行删除明显,测试集没有改变,索引没有改变,那么删除行和添加行(不在数据末尾)有什么问题?
解决方案
我认为这是一个一般提示/良好做法。1. 如果您按索引拆分(例如第一个 80% 索引和接下来的 20%)或者您正在执行时间序列项目,那么您放置行的位置非常重要。2. 如果您认为您正在追加行,但您正在覆盖它们,您可能会在没有意识到的情况下丢失数据。
推荐阅读
- filter - Hugo 从页面包中排除文件类型?
- java - 如何修复 else if 语句?
- python - 为什么 dict 类型的变量内容不能腌制?
- javascript - 魔方JS | 计算2个日期之间的差异
- javascript - 尝试使用 axios 访问 Wikipedia Api 但出现 CORS 策略错误
- swift - 快速舍入值导致分段错误
- javascript - 有没有办法让一个元素依赖于另一个元素?
- javascript - 如何更改 Google 表格中的图表位置?
- excel - vlookup多个值excel
- elasticsearch - elasticsearch nest 7.1 聚合字段通用速记字段表达式