首页 > 解决方案 > 如何创建根据组大小排序的多索引数据框?

问题描述

我确实有这样的数据框:

df = pd.DataFrame({
    'IDs': list('abcdefgh'),
    'Val': [
        'foo', 'bar', 'foo', 'abc', 'bar', 'bar', 'foo', 'foo'
    ]
})

  IDs  Val
0   a  foo
1   b  bar
2   c  foo
3   d  abc
4   e  bar
5   f  bar
6   g  foo
7   h  foo

我现在想得到这样的输出:

Val IDs           
foo a            
    c            
    g            
    h            
bar b            
    e            
    f            
abc d

因此,它是一个多索引数据帧的索引,size根据Val.

我目前这样做:

df['groupsize'] = df.groupby('Val')['IDs'].transform('size')

df = (
    df.sort_values(['groupsize', 'Val', 'IDs'], ascending=[False, True, True])
      .drop('groupsize', axis=1)
      .set_index(['Val', 'IDs'])
)

df.to_excel('example.xlsx', merge_cells=True)

这给出了所需的输出。

有没有办法实现相同的输出,但不创建这个groupsize稍后会被删除的中间列?

标签: pythonpandassortingdataframemulti-index

解决方案


您可以使用np.argsortandiloc来避免冗长sort_values

s = np.argsort(-df.groupby('Val')['IDs'].transform('size'))

df.iloc[s].set_index(['Val', 'IDs'])

Val IDs
foo a
    c
    g
    h
bar b
    e
    f
abc d

推荐阅读