python - 使用 MultiIndex 将值的子集分配给 pandas 数据框
问题描述
我有一个数据框df
:
**Count**
**Environment** **Type**
**A** a 100
b 200
c 300
d 400
e 500
f 600
**B** a 1000
b 2000
c 3000
d 4000
e 5000
f 6000
df.index
吐出以下索引:
MultiIndex(levels=[['A', 'B'], ['a', 'b', 'c', 'd', 'e', 'f']],
labels=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1],
[0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5]],
names=['A', 'B'])
我需要计算每个 A 和 B 的计数百分比。所以我这样做:
sums = df.groupby(level = 0).sum()
df.loc['A'] = df.loc['A'].apply(lambda x: x/sums.loc['A','Count'])
df.loc['B'] = df.loc['B'].apply(lambda x: x/sums.loc['B','Count'])
但是,这会导致所有值都是NaN
。
我怀疑 的索引
df.loc['B'].apply(lambda x: x/sums.loc['B','Count'])
与 的索引不同df
,但它应该与df
我选择的部分相同。
这些自己
df.loc['A'].apply(lambda x: x/sums.loc['A','Count'])
df.loc['B'].apply(lambda x: x/sums.loc['B','Count'])
有我需要的值,所以除法有效。但是,分配没有。
如何将上述表达式的结果分配给数据框的一部分 df
?
解决方案
div
用于赋值
s=df.Count.div(df.Count.sum(level=0),axis=0,level=0)
df['per']=s
df
Out[1253]:
Count per
**Environment** **Type**
A a 100 0.047619
b 200 0.095238
c 300 0.142857
d 400 0.190476
e 500 0.238095
f 600 0.285714
B a 1000 0.047619
b 2000 0.095238
c 3000 0.142857
d 4000 0.190476
e 5000 0.238095
f 6000 0.285714
推荐阅读
- html - 如何创建任意宽度的网格项(使用间隙)?
- java - 为特定键实现 notifyAll() 和 wait()
- itext7 - Flexbox 部分使用(?)在 iTextPDF 中有效
- c# - 使用 FluentFTP 将文件从 FTP 服务器流式传输到 ASP.NET Core 中的 Web 客户端
- go - GoLang 将 webm 转换为 mp3
- ksqldb - 当查询作为流在顶部执行时,KSQL DB 是否会创建临时主题?
- awk - 如何使用bash脚本提取连续模式
- makefile - GNU make: $(foreach...) 和 $(call...) 的嵌套会产生错误:*** 多个目标模式。停止
- android - 投射哈希图
到哈希图 科特林 - nginx - 如何在 Nginx 上获取 :authority 标头?