python - 用于对python中的所有分类变量进行详尽的卡方检验和方差分析的函数
问题描述
我正在研究一个既有分类变量又有数值变量的数据集。我想找到变量中的相关性,如果它们的相关性很大,我想删除其中一个相关特征。我知道熊猫data.corr()
只能用于数值变量和分类变量,只有 2 个值为 0 或 1。如果我想找到分类变量和分类变量之间的相关性,我了解到我将不得不使用卡方分别进行检验和方差分析。我发现 pandas 和 scipy 具有计算分类特征和要预测的标签之间关系的 API。但这给出了一个关于分类变量和要预测的标签的想法。
from sklearn.feature_selection import chi2
X = churn_df.drop('Exited',axis=1)
y = churn_df['Exited']
chi_scores = chi2(X,y)
print(chi_scores)
是否有任何用于卡方和方差分析的函数或 API 提供所有分类变量的详尽相关列表,就像 pandasdata.corr()
对所有数值变量所做的那样。基于分类变量的相关性,我想删除它们。
解决方案
推荐阅读
- terraform - terragrunt 中的插件重新初始化需要错误
- reactjs - 反应缓存策略
- npm - Google Artifact Registry:即使在包删除后也无法发布具有相同版本的包
- google-cloud-platform - 如何在 GCP 上向 CIS UBUNTU linux 20.04 添加 GPU 加速器
- python - 如何从 python 脚本中从后台运行的 Spark 应用程序请求 Spark 会话对象?
- python - Django Admin:两个 ListFilter Spanning 多值关系
- c++ - OS X(Big Sur)默认clang链接器是否正确处理链接顺序,因此用户不需要考虑静态库顺序依赖性?
- django - 如何根据先前的用户选择在 Django 中预填充(多个)ChoiceField
- javascript - 在我的 javascript 代码中,Firefox 无法识别双短键来浏览文件
- c# - 从容差内的排序序列中计算不同元素的数量