首页 > 解决方案 > 如何提高随机森林回归预测结果

问题描述

我正在使用机器学习随机森林回归进行停车占用预测。我有 6 个特征,我尝试实现随机森林模型但结果并不好,因为我对此很陌生,我不知道什么样的模型适合这种问题。我的数据集很大,有 4700 万行。我也使用了随机搜索 cv,但我无法改进模型。请查看下面的代码并帮助改进或建议其他模型。

随机森林回归

使用的特征是在带有缓冲区的停车场的位置数据的帮助下提取的。请帮助我改进。

标签: regressiongeospatialrandom-forestprediction

解决方案


所以,你使用的变量是:['restaurants_pts','population','res_percent','com_percent','supermarkt_pts','bank_pts']

我看到的是,对于同一个停车场,这些变量不会改变,所以回归只会预测停车场的“平均”占用率。您问题的关键部分之一似乎是下午 5 点和凌晨 4 点的入住率不一样......

我建议您处理时间变量(例如:到达),以便它可用。模型本身无法理解变量,但您可以使用它来创建类别。例如,您进行预处理,仅选择变量的 HOUR,然后使用它进行分类(每小时作为一个类别,或者更大的类别,如 ['noon - 6am', '6am - 10am', '10am - 2pm '、'下午 2 点 - 下午 6 点'、'下午 6 点 - 中午'])


推荐阅读