python - pandas groupby 对象,组合和绘图
问题描述
我可能不太明白何时或如何使用 pandas.DataFrame 的 groupby 函数。在下面的示例中,我想将我的数据帧按花瓣长度分箱,并计算每个分箱的条目数、平均值和散布。我可以通过三个 groupby 调用来做到这一点,但是我在三个单独的对象中得到了答案。因此,我之后将它们连接起来。现在我有一个对象,但是所有列都称为分隔宽度,将名称传递给 concat 对我不起作用。此外,我想获得 bin 和平均值,例如用于绘图,但我不知道该怎么做。
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets
iris = datasets.load_iris()
data = pd.DataFrame(iris.data)
data.columns = iris.feature_names
data["bin"] = pd.cut(data["petal length (cm)"], 5)
g0 = data.groupby(["bin"])["sepal width (cm)"].count()
g1 = data.groupby(["bin"])["sepal width (cm)"].mean()
g2 = data.groupby(["bin"])["sepal width (cm)"].std()
# how to get better names?
g = pd.concat([g0, g1, g2], axis=1)
print g
# how to extract bin and mean e.g. for plotting?
#plt.plot(g.bin, g.mean)
解决方案
关于问题的第二部分,您可以使用字符串操作。
如果我理解正确,您可以使用它:
a = data['bin']
a1 = a.astype(str).str.strip('([])').str.split(',').str[0].astype(float)
a2 = a.astype(str).str.strip('([])').str.split(',').str[1].astype(float)
data['bin_center'] = (a1+a2)/2
g = data.groupby('bin_center')['sepal width (cm)'].agg(['count', 'mean', 'std'])
plt.plot(g.index, g['mean'])
顺便说一句,如果您不想要 bin 中心,并且想要查看带有 bin 的图,
您可以使用数据框图:
g = data.groupby('bin')['sepal width (cm)'].agg(['count', 'mean', 'std'])
print(g)
g['mean'].plot()
推荐阅读
- c# - 计时器归零后重新启用按钮
- python - 覆盖tkinter中标签的内存
- firebase - Firestore 的排球或改造?
- android - 如何使用物理相机键或麦克风键启动应用程序 - android?
- python - 使用 sklearn OneHotEncoder 时如何去掉数字列?
- python - python绝对路径中的双反斜杠
- wikipedia-api - 维基书 API 查询
- powershell - powershell 输出到文本文件
- machine-learning - 我应该在测试集和训练集中获得相同的准确度吗
- python - Django ModelForm 的 DateTime 值在本地化关闭的情况下进行本地化/翻译