r - R中数据集中的异常检测
问题描述
我想在大约 10'000 个数据点的天气数据集中检测模式。我有大约 40 个可能的预测变量(温度、湿度等),它们可以解释第二天天气的好坏(因变量)。通常,我会应用随机森林等经典机器学习方法来构建和测试用于对整个数据集进行分类的模型,并找到可靠的预测器来预测第二天的天气。
我的任务虽然不同。我想在整体数据的子集中找到“保证”天气好坏的预测变量及其参数。我对描述整个数据集不感兴趣,而是寻找可以为我提供好或坏天气指示的预测变量(及其参数)的模式。因此,例如,如果某些预测变量设置为特定水平,我试图找到 100 个具有 100% 好天气的数据点。我对其他 9'900 个数据点不感兴趣。
这是一项尝试所有预测变量组合和校准的任务,以找到可以以非常高的准确度进行预测的整体数据点的子集。
你将如何系统地做到这一点?
解决方案
推荐阅读
- julia - 有没有办法在 Julia 中强制使用隐藏的默认构造函数?
- ruby-on-rails - Rails:通过belongs_to查询has_one在查询中添加PK null
- python - 来自 XYZ csv 格式的栅格
- dynatrace - 来自 Dynatrace 的 /etc/passwd(或任何 xyz 文件)文件更改警报
- sql-server - 我可以根据全新 proc 中的 Column 对多个存储过程进行分组吗?避免重复结果?
- javascript - 香草javascript中的下拉过滤器
- windows - 使用批处理文件变量值扩展路径注册表项值的正确语法
- swift - 如何在 SwiftUI 中删除列表的左右填充?
- scala - 如何找到与当前日期最近的日期
- git - 在 Google Cloud Source Repositories 上存储大文件