首页 > 解决方案 > 稍后添加新功能时处理“丢失”数据

问题描述

条件:

我有具有 2 个特征的数据集

每天我都会收集新数据。所以行数增加了

我已经收集了 1000 天的数据,所以我有 1000 行

我在第 900 天添加了新功能(功能 3)

我无法获取过去的数据。

问题是我有不同的行:

特征 1 和特征 2 有 1000 行

特征 3 有 100 行

什么是最好的解决方案?我应该做估算吗?我应该制作多个子集吗?

我认为这种情况会再次发生,因为我有计划在未来再次添加新功能(功能 4、功能 5 等)

标签: data-mining

解决方案


没有适合所有人的解决方案。

在某些情况下,丢弃旧数据可能会很好。

插补可能不是一个好主意。我宁愿使用一种可以忽略缺失值的算法。


推荐阅读