首页 > 解决方案 > 解释数据处理中的“多重共线性”

问题描述

谁能用简单的话解释一下机器学习数据处理中的多重共线性术语。由于该术语在数据处理方面非常重要并且具有令人困惑的解释。

所以,请用简单的话解释一下,因为我是使用 python 的 ML 新手。

标签: pythonjupyter-notebooktableau-apidata-processingmachine-learning-model

解决方案


在机器学习中,模型的输出(响应或预测)变量将通过某种程度的线性(正或负)取决于输入(预测或解释)变量。

但是在一些具有多个输入变量的数据集或模型中(例如 X1、X2、X3、X4 和 X5),我们会看到输入变量本身之间存在线性关系。也就是说,X1 与 X2 相关,X1 也与 X3 相关。因此,在这种情况下,X1、X2 和 X3 相互关联,我们看到该模型中存在多重共线性。请注意,多重共线性解释了一个输入变量与另一个输入变量(而不是输出变量)之间的相关性

让我们以房价预测模型来清楚地理解。考虑我们数据集中的以下输入变量平方英尺大小、卧室数量、UDS(以平方英尺为单位的未分割份额)和输出(预测)变量房价

它表明所有 3 个输入变量都相互关联。如何?

如果卧室数量没有增加,那么房子的大小也会增加。如果房子的大小增加,UDS 增加,存在多重共线性,我们应该在模型训练之前解决多重共线性问题


推荐阅读