首页 > 解决方案 > MultiIndex 上的 Pandas set_levels:级别值必须是唯一的

问题描述

给定一个 DataFramedf

                    Value
Category Pool Class      
A        1.0  1.0       1
              9.0       2
B        1.0  1.0       3
C        1.0  1.0       4
              5.0       5

我想将级别PoolClass整数转换为没有reset_index(见下文)。

我尝试使用get_level_valuesset_levels这样的组合

for c in ['Pool', 'Class']:
    df.index.set_levels(df.index.get_level_values(c).astype(int), level=c, inplace=True)

然而,这引发了

ValueError: Level values must be unique: [1, 1, 1, 1, 1] on level 1

为了了解会发生什么,我还尝试使用verify_integrity=False. 然后

df.index.set_levels(df.index.get_level_values('Class').astype(int),
                    level='Class', verify_integrity=False, inplace=True)

生产

                    Value
Category Pool Class      
A        1.0  1         1
              1         2
B        1.0  1         3
C        1.0  1         4
              9         5

而我的目标是获得

                    Value
Category Pool Class      
A        1.0  1         1
              9         2
B        1.0  1         3
C        1.0  1         4
              5         5

如何正确实现这一目标?是链接get_level_valuesset_levels正确的方法吗?为什么pandas转换后无法正确设置关卡astype

我想你可以一起工作,reset_index但是set_index拥有这些方法有什么好处set_levels呢?

d = {'Category': str, 'Pool': int, 'Class': int}
df.reset_index(drop=False, inplace=True)
for k, v in d.items():
    df[k] = df[k].astype(v)

df.set_index(list(d.keys()), inplace=True)

标签: pythonpandasdataframeindexingmulti-index

解决方案


您可以通过以下方式直接访问索引级别pd.MultiIndex.levels并将其提供给pd.MultiIndex.set_levels

df.index = df.index.set_levels(df.index.levels[2].astype(int), level=2)

print(df)

                     Value
Category Pool Class       
A        1.0  1          1
              9          2
B        1.0  1          3
C        1.0  1          4
              5          5

推荐阅读