tensorflow - 我应该从输入特征中修剪异常值吗
问题描述
几乎一半的输入特征列都有分支“异常值”,例如平均值为19.6时最大值为2908.0。可以吗?或者我应该把它们修剪成mean + std
什么?
msg_cnt_in_x msg_cnt_in_other msg_cnt_in_y \
count 330096.0 330096.0 330096.0
mean 19.6 2.6 38.3
std 41.1 8.2 70.7
min 0.0 0.0 0.0
25% 0.0 0.0 0.0
50% 3.0 1.0 8.0
75% 21.0 2.0 48.0
max 2908.0 1296.0 4271.0
解决方案
对此没有一般性的答案。这在很大程度上取决于您的探针和数据集。
您应该查看您的数据集并检查这些异常数据点是否真正有效和重要。如果它们是由数据收集过程中的某些错误引起的,您应该删除它们。如果它们是有效的,那么您可以在测试数据中期望相似的值,因此数据点应该保留在数据集中。
如果您不确定,只需测试两者并选择效果更好的一个。
推荐阅读
- pyqt - 从 QtDesigner 设计的 UI 中隐藏底部边框
- sql - Hive - 如何从列表类型的表中读取列
- python - python打印来自两个不同字典的值
- python - 获取 PySpark 列中列表列表中第一个元素的最大值
- wpf - WPF:从后面的代码更改属性时,未应用内置数据错误模板(红色边框)
- python - python 3通过套接字发送文件
- python - Noob here - 当我在屏幕上移动鼠标时,我的精灵更新的 pygame 动画
- python-3.x - 从多个列表中识别相似的数字
- python-3.x - 如何使用其键从 Google 数据库中删除 NDB 对象,甚至不编译
- terraform - Terraform 错误:添加 LB 侦听器证书时出错:ValidationError:无法为 %s 侦听器指定证书