python - 如何处理特征消除？

问题描述

我一直在研究几个数据集，以基于它们构建预测模型。但是，当它要消除功能时，我感到有些困惑。

第一个是波士顿住房数据集，第二个是Bigmart 销售数据集。我将把我的问题集中在这两个上，但我也希望得到相对笼统的答案。

Boston Housing：我构建了一个相关系数矩阵，并消除了与目标变量medv的绝对相关系数小于 0.50 的特征。这给我留下了三个特征。然而，我也明白，相关矩阵可能具有高度欺骗性，并且不能捕捉非线性关系，事实上，诸如crim、indus 等特征确实与 medv 具有非线性关系，直观上它根本感觉不到正确丢弃它们。

Bigmart 销售：在 Python 中的 OneHotEncoding 之后创建了大约 30 多个功能。在构建线性回归模型时，我给出了一种反向消除方法，但我不确定在为此数据集处理决策树模型时如何应用反向消除（不确定它是否真的可以应用于决策树）。

如果我能对如何针对上述两种情况进行特征消除有所了解，那将有很大帮助。如果您需要更多信息，请告诉我，我很乐意提供。

标签： pythonmachine-learningdata-sciencemodelingfeature-selection

这是一个非常笼统的问题。我认为不可能以 StackOverFlow 格式回答您的问题。

对于每个 ML/统计模型，您需要不同的特征消除/特征工程方法：

线性 / 逻辑 / GLM 模型需要移除相关特征
对于神经网络/增强树，去除特征将影响模型的性能

即使对于一种类型的模型，也没有单一的最佳方法来进行特征消除

如果您可以为您的问题添加更具体的信息，则可以进行详细讨论。

python - 如何处理特征消除？

问题描述

解决方案

推荐阅读