首页 > 解决方案 > 我应该从输入特征中修剪异常值吗

问题描述

几乎一半的输入特征列都有分支“异常值”,例如平均值为19.6时最大值为2908.0。可以吗?或者我应该把它们修剪成mean + std什么?

              msg_cnt_in_x  msg_cnt_in_other         msg_cnt_in_y \
count             330096.0           330096.0            330096.0   
mean                  19.6                2.6                38.3   
std                   41.1                8.2                70.7   
min                    0.0                0.0                 0.0   
25%                    0.0                0.0                 0.0   
50%                    3.0                1.0                 8.0   
75%                   21.0                2.0                48.0   
max                 2908.0             1296.0              4271.0

标签: tensorflowkeras

解决方案


对此没有一般性的答案。这在很大程度上取决于您的探针和数据集。

您应该查看您的数据集并检查这些异常数据点是否真正有效和重要。如果它们是由数据收集过程中的某些错误引起的,您应该删除它们。如果它们是有效的,那么您可以在测试数据中期望相似的值,因此数据点应该保留在数据集中。

如果您不确定,只需测试两者并选择效果更好的一个。


推荐阅读