python - 解释数据处理中的“多重共线性”
问题描述
谁能用简单的话解释一下机器学习数据处理中的多重共线性术语。由于该术语在数据处理方面非常重要并且具有令人困惑的解释。
所以,请用简单的话解释一下,因为我是使用 python 的 ML 新手。
解决方案
在机器学习中,模型的输出(响应或预测)变量将通过某种程度的线性(正或负)取决于输入(预测或解释)变量。
但是在一些具有多个输入变量的数据集或模型中(例如 X1、X2、X3、X4 和 X5),我们会看到输入变量本身之间存在线性关系。也就是说,X1 与 X2 相关,X1 也与 X3 相关。因此,在这种情况下,X1、X2 和 X3 相互关联,我们看到该模型中存在多重共线性。请注意,多重共线性解释了一个输入变量与另一个输入变量(而不是输出变量)之间的相关性
让我们以房价预测模型来清楚地理解。考虑我们数据集中的以下输入变量平方英尺大小、卧室数量、UDS(以平方英尺为单位的未分割份额)和输出(预测)变量房价
它表明所有 3 个输入变量都相互关联。如何?
如果卧室数量没有增加,那么房子的大小也会增加。如果房子的大小增加,UDS 增加,存在多重共线性,我们应该在模型训练之前解决多重共线性问题
推荐阅读
- python - 如何使用 Python 请求或 urllib 登录页面
- python - 无法维护 python 集中的排序顺序 - Django 查询集 - Python
- curl - curl 和 wget 的限制
- amazon-web-services - 如何使用 terraform 删除非空 s3 存储桶?
- python - 如何使用 Tokenizer (Keras)?无法在角色级别生成令牌
- c - 文件路径读取正确但不创建文件或写入文件
- npm - 在电容器内找不到外部参考
- python - 是否可以在没有 cmd 行的情况下在 Visual Studio 上执行您的代码?
- python - /admin/order/order/ 关系“order_order”处的编程错误不存在第 1 行:从“order_order”中选择 COUNT(*) AS “__count”
- java - Java NoSuchMethodError minecraft.getMinecraft()