keras - 异常具有与正常数据相似的误差值
问题描述
我有惯性测量单元 (IMU) 数据,我正在为其构建异常检测自动编码器神经网络。我有大约 5k 个训练样本,其中 10% 用于验证。我还有大约 50 个(尽管我可以制作更多)样本来测试异常检测。我的数据集有 12 个 IMU 特征。我训练了大约 10,000 个 epoch,在训练期间我获得了大约 0.004 的重构均方误差 (MSE)。训练后,我对测试数据执行 MSE 计算,得到的值与训练数据中的值非常相似(0.003),但我不知道为什么!
我通过从整体数据(不是 X_train 的一部分)中切片 50 个样本并将其中一个特征更改为全零来制作我的测试集。我还尝试向其中一个功能添加噪音以及使多个功能为零。
np.random.seed(404)
np.random.shuffle(all_imu_data)
norm_imu_data = all_imu_data[:len_slice]
anom_imu_data = all_imu_data[len_slice:]
anom_imu_data[:,6] = 0
scaler = MinMaxScaler()
norm_data = scaler.fit_transform(norm_imu_data)
anom_data = scaler.transform(anom_imu_data)
X_train = pd.DataFrame(norm_data)
X_test = pd.DataFrame(anom_data)
我通过隐藏层数和隐藏节点/层数尝试了许多不同的网络大小。例如,我展示了一个类似 [12-7-4-7-12] 的拓扑:
input_dim = num_features
input_layer = Input(shape=(input_dim, ))
encoder = Dense(int(7), activation="tanh", activity_regularizer=regularizers.l1(10e-5))(input_layer)
encoder = Dense(int(4), activation="tanh")(encoder)
decoder = Dense(int(7), activation="tanh")(encoder)
decoder = Dense(int(input_dim), activation="tanh")(decoder)
autoencoder = Model(inputs=input_layer, outputs=decoder)
autoencoder.compile(optimizer='adam', loss='mse', metrics=['mse'])
history = autoencoder.fit(X_train, X_train,
epochs=nb_epoch,
batch_size=batch_size,
shuffle=True,
validation_split=0.1,
verbose=1,
callbacks=[checkpointer, tensorboard]).history
pred_train = autoencoder.predict(X_train)
pred_test = autoencoder.predict(X_test)
mse_train = np.mean(np.power(X_train - pred_train, 2), axis=1)
mse_test = np.mean(np.power(X_test - pred_test, 2), axis=1)
print('MSE mean() - X_train:', np.mean(mse_train))
print('MSE mean() - X_test:', np.mean(mse_test))
这样做之后,我得到的 MSE 平均数为 0.004 的 Train 和 0.003 的 Test。因此,我无法为异常数据选择一个好的阈值,因为有很多正常点的 MSE 分数高于“异常”数据。关于为什么这个网络无法检测到这些异常的任何想法?
解决方案
这是完全正常的。您在整个数据的子样本上训练您的自动编码器。因此,也有异常会污染您的训练数据。自动编码器的目的是找到对原始数据的完美重建,包括异常。这是一个非常强大的工具,所以如果你在训练数据中显示异常,它会很容易地重建它们。
您需要使用另一种异常检测算法(例如隔离森林)删除 5% 的异常数据,并对这部分数据进行二次抽样(没有异常值)。
之后,您可以轻松找到异常值。
推荐阅读
- github - 我搞砸了主分支并且项目无法加载,我如何创建一个新的主分支?
- node.js - 使用 promise 将一个 NodeJS module.export 函数的结果传递给另一个 NodeJS module.export 函数
- powershell - 如何在 Windows 批处理文件中传递字符串数组
- mongodb - 如何在 MongoDB 聚合管道中查找并返回结果所在的页面?
- javascript - 在 React 中显示/隐藏组件
- excel - VBA - 隐藏/取消隐藏行作为工作表事件的速度
- python - 将元组列表(int,float)写入流而不转换为字符串
- iis - 重定向域作品但不重定向页面
- c++ - 这个模式是什么意思?新 (&entries[num_entries]) 项目;
- android - 将链发送到连接的 gradle