首页 > 解决方案 > 数据选择 - 查找数据框属性之间的关系

问题描述

假设我有一个包含 80 列和 1 个目标列的数据框,例如一个银行账户表,每个记录(账户)有 80 个属性,1 个目标列决定客户是留下还是离开。我应该遵循哪些步骤和算法来选择对目标列影响更大的最有效的列?

标签: data-sciencedata-analysis

解决方案


您可以采取许多步骤,我将给出一些示例来帮助您入门:

  1. 相关系数,例如 Pearson 的 Rho(用于参数数据)或 Spearman 的 R(用于纵坐标数据)。
  2. 特征重要性。我喜欢XGBoost,因为它包括方便的xgb.ggplot.importance/xgb.plot_importance方法。
  3. 众多特征选择选项之一,例如 python 的sklearn.feature_selection 方法

推荐阅读