machine-learning - 使用分类器进行异常检测的 SMOTE 过采样
问题描述
我有传感器数据,我想在训练集上使用 LOF 进行实时异常检测以检测异常,然后将标记的数据应用于分类器以对新数据点进行分类。我考虑过使用 SMOTE,因为我希望训练数据中有更多的 anamolies 点来克服不平衡的分类问题,但问题是 SMOTE 创建了许多在正常范围内的点。如何在不创建正常数据范围内的样本的情况下进行过采样?
解决方案
SMOTE 将在少数类样本的k最近邻之间线性插值合成点。这意味着您最终将得到样本与其邻居之间的点。当样本像这样遍布各处时,您将在中间创建合成点是有道理的。
SMOTE 应该真正用于识别特征空间中更具体的区域作为少数类的决策区域。这似乎不是您的用例。您想知道哪些点本身“不属于”。
对于DBSCAN来说,这似乎是一个相当不错的用例,这是一种基于密度的聚类算法,可以将超出一定距离的点识别eps
为不属于同一个邻域。
推荐阅读
- c++ - 用多态性解决代码重复
- c# - 如何在 C# 中解压缩 RLE?
- android - 如何在android studio中将数据从第一个第二个第三个活动传递到第四个活动
- python - 如何将默认值放入 django 中的下拉表单字段
- php - 仅在某些日期范围内选择查询太慢
- maven - Maven 不使用配置的存储库来解决所有依赖项
- typescript - 如果通过括号表示法和常量变量访问,则在类型保护检查后访问对象属性不起作用
- python - 我需要使用信号重采样对 np 数组进行重采样
- dropzone.js - 如何识别 Dropzone.js 中的 uploadMultiple 文件?
- docker - Cron 作业不会在 Docker 容器内运行