首页 > 解决方案 > 不同子组的熊猫中位数

问题描述

我有一个带有列 ['HSIZE', 'AGE2', 'SEX', 'EDU'] 的 pandas 数据框,除了 HSIZE 所有列都是分类变量(我已经为 30 到 40 岁的人剪掉了 AGE2),HSIZE 是一个数字,表示每个观察的家庭规模。

我想要达到的是每个 EDU 级别中 SEX 的 HSIZE 中值

我试图使用错误的结果是

dt = dl.groupby(["HSIZE", "AGE2", "SEX"])["EDU"]
dt = dt.value_counts()
dt = dt.unstack()
dt = dt.median(level="SEX")
dt

获得 此结果(具有正确的最终形式,但数字错误),它告诉我基于此表的个人数量的中位数,而不是这些个人的实际 HSIZE 的中位数

除了正确的代码之外,我还可以要求对这种情况下所涉及的动态进行简要解释,我是 python 的新手,对 pandas 来说更是如此,而且我不断地撞墙

标签: python-3.xpandasdataframemedian

解决方案


推荐阅读