python - 使用python查找变量之间的相关性
问题描述
我试图找出这个数据集中所有列的相关性,quality
然后绘制葡萄酒质量的频率分布。
我正在按照以下方式进行操作,但是如何删除质量?
import pandas as pd
df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv', sep=';')
df.corr()
它返回此输出:
如何用 pandas 绘制葡萄酒质量的频率分布图?
我以前使用 R 进行相关性,它对我来说效果很好,但是在这个数据集上,我正在学习使用 pandas 和 python:
winecor = cor(wine[-12])
hist(wine$quality)
所以在 RI 中得到以下输出,我在 Python 中寻找相同的输出。
解决方案
1.直方图
# Import plotting library
import matplotlib.pyplot as plt
### Option 1 - histogram
plt.hist(df['quality'], bins=range(3, 10))
plt.show()
### Option 2 - bar plot (looks nicer)
# Get frequency per quality group
x = df.groupby('quality').size()
# Plot
plt.bar(x.index, x.values)
plt.show()
2. 相关矩阵
为了得到特征的相关矩阵,不包括quality
:
# Option 1 - very similar to R
df.iloc[:, :-1].corr()
# Option 2 - more Pythonic
df.drop('quality', axis=1).corr()
推荐阅读
- python - 是否有一种方法可以沿给定数组的轴获取所有成对差异?
- python - Pandas 抛出 ValueError:无法强制转换为 Series,长度必须为 1:给定 219
- javascript - TypeError:无法读取未定义的属性“游戏”
- typescript - 打字稿在类中初始化可选参数
- python-3.x - “数据必须与 ECB 模式下的块边界对齐”尝试使用 python3.6 在 lambda 中加密和解密
- openstreetmap - 在 DKAN 上有一个 OpenStreetMap
- typescript - 将 TypeScript 的类型定义暴露给 JSDoc
- google-apps-script - 表格中的插件侧边栏不显示任何插件
- autodesk-forge - 我可以用多种颜色为 BIM 中的一个元素着色吗?
- google-cloud-platform - GKE 多区域工作负载未平衡到所有区域