首页 > 解决方案 > R中数据集中的异常检测

问题描述

我想在大约 10'000 个数据点的天气数据集中检测模式。我有大约 40 个可能的预测变量(温度、湿度等),它们可以解释第二天天气的好坏(因变量)。通常,我会应用随机森林等经典机器学习方法来构建和测试用于对整个数据集进行分类的模型,并找到可靠的预测器来预测第二天的天气。

我的任务虽然不同。我想在整体数据的子集中找到“保证”天气好坏的预测变量及其参数。我对描述整个数据集不感兴趣,而是寻找可以为我提供好或坏天气指示的预测变量(及其参数)的模式。因此,例如,如果某些预测变量设置为特定水平,我试图找到 100 个具有 100% 好天气的数据点。我对其他 9'900 个数据点不感兴趣。

这是一项尝试所有预测变量组合和校准的任务,以找到可以以非常高的准确度进行预测的整体数据点的子集。

你将如何系统地做到这一点?

标签: rpredictionanomaly-detection

解决方案


推荐阅读