首页 > 解决方案 > 以功能为键的熊猫 groupby

问题描述

我想以 3 年的时间跨度计算平均值。我的数据是这样的:

import pandas as pd 
import numpy as np

N=120
data = {'p1': np.random.randint(50,100,N),
        'p2': np.random.randint(0,100,N),
        'p3': np.random.randint(10,70,N)
        }
df = (pd.DataFrame(data, index=pd.bdate_range(start='20100101', periods=N, freq='BM'))
      .stack()
      .reset_index()
      .rename(columns={'level_0': 'date', 'level_1': 'type', 0: 'price'})
      .sort_values('date')
      )

我试过了 :

(df.sort_values('date')
       .groupby(['type', 
                 ''.join([(df.date.dt.year-3), '-', (df.date.dt.year)]) #3 years time span
                ]
               )
       ['price']
       .apply(lambda x: x.mean())
       )

但收到一条错误消息:

TypeError: sequence item 0: expected str instance, Series found

我想按 2010-2013、2011-2014、2012-2015 的类型/时间段计算价格的平均值(和其他统计数据)...

标签很重要,因为我可以使用:

(df.sort_values('date')
       .groupby(['type', df.date.dt.year//3]) #3 years time span
       ['price']
       .apply(lambda x: x.mean())
)

任何想法 ?

标签: pandasdataframegroup-by

解决方案


我想我找到了我自己的问题的答案(其他人可能感兴趣):

(df.sort_values('date')
       .groupby(['type', (df.date.dt.year-3).astype(str).str.cat((df.date.dt.year).astype(str), sep='-')
                ]
               )
       ['price']
       .apply(lambda x: x.mean())
)

推荐阅读