首页 > 解决方案 > 使用 pandas GroupBy 和时间序列重采样的平均聚合

问题描述

我在使用 Pandas groupby 功能和时间序列时遇到问题。我已经阅读了文档,但我无法弄清楚如何将聚合函数应用于多个列并正确计算“聚合”的体积(平均值)的平均值。

这是我导入 CSV 文件的代码:

#CSV Import
import pandas as pd
path = r'Z:\Python\30_Min_Data.txt'

from datetime import datetime
customdateparse = lambda x: datetime.strptime(x, '%Y/%m/%d %H:%M:%S.%f')
df = pd.read_csv(
        path,
        parse_dates={'DateTime': [0, 1]},
        date_parser=customdateparse)

# Set the Date as the Index --> needed for Resampling
df.set_index('DateTime', inplace=True)
df.sort_index()     

这是我导入后的 DataFrame:

df
Out[3]: 
                     Volume Session
DateTime                           
2020-12-16 08:00:00    1000    PRTH
2020-12-16 08:30:00    5000    PRTH
2020-12-16 09:00:00    1000     RTH
2020-12-16 09:30:00    3000     RTH
2020-12-17 08:00:00    2000    PRTH
2020-12-17 08:30:00    2000    PRTH
2020-12-17 09:00:00    2000     RTH
2020-12-17 09:30:00    2000     RTH
2020-12-18 08:00:00    1000    PRTH
2020-12-18 08:30:00    1000    PRTH
2020-12-18 09:00:00    1000     RTH
2020-12-18 09:30:00    1000     RTH
2019-11-18 08:00:00    1000    PRTH
2019-11-18 08:30:00    1000    PRTH
2019-11-18 09:00:00    1000     RTH
2019-11-18 09:30:00    1000     RTH

这就是我尝试过的: 由于时间序列重采样,它计算了每天的平均值。我希望它首先对值求和,最后计算平均值。但这确实意味着每天的所有数据。

#2.Volume: Average per Year & Session & Day
funcs_year    = lambda idx: idx.year
(df
   .groupby([funcs_year,'Session', pd.Grouper(freq='D')])
    ['Volume']
   .mean()
)

Out[6]: 
      Session   DateTime  
2019   PRTH     2019-11-18    1000
       RTH      2019-11-18    1000
2020   PRTH     2020-12-16    3000
                2020-12-17    2000
                2020-12-18    1000
       RTH      2020-12-16    2000
                2020-12-17    2000
                2020-12-18    1000
Name: Volume, dtype: int64

这就是我希望正确计算和显示结果的方式(我手动计算): 每天的平均(平均)交易量(分别显示年份和会话):

Year    Session     Mean Volume
2020    RTH         3.333,33
        PRTH        4.000,00
2019    RTH         2.000,00
        PRTH        2.000,00

任何人都知道我错过了什么/做错了什么?

标签: pythonpandastime-seriespandas-groupbypandas-resample

解决方案


这对你有用吗:

df['Year']=df['DateTime'].dt.year
(df
   .groupby(['Year','Session'])
   .apply(lambda x: x['Volume'].sum()/len(x['DateTime'].dt.date.unique()))
)

请注意,“日期时间”现在应该是一列。

我认为这计算了每年和 Session 每天的平均交易量。你能试一试吗?


推荐阅读