首页 > 解决方案 > 用于对python中的所有分类变量进行详尽的卡方检验和方差分析的函数

问题描述

我正在研究一个既有分类变量又有数值变量的数据集。我想找到变量中的相关性,如果它们的相关性很大,我想删除其中一个相关特征。我知道熊猫data.corr()只能用于数值变量和分类变量,只有 2 个值为 0 或 1。如果我想找到分类变量和分类变量之间的相关性,我了解到我将不得不使用卡方分别进行检验和方差分析。我发现 pandas 和 scipy 具有计算分类特征和要预测的标签之间关系的 API。但这给出了一个关于分类变量和要预测的标签的想法。

from sklearn.feature_selection import chi2

X = churn_df.drop('Exited',axis=1)
y = churn_df['Exited'] 

chi_scores = chi2(X,y)
print(chi_scores)

是否有任何用于卡方和方差分析的函数或 API 提供所有分类变量的详尽相关列表,就像 pandasdata.corr()对所有数值变量所做的那样。基于分类变量的相关性,我想删除它们。

标签: pythonpandasscipyanovachi-squared

解决方案


推荐阅读