python - 使用 pandas GroupBy 和时间序列重采样的平均聚合
问题描述
我在使用 Pandas groupby 功能和时间序列时遇到问题。我已经阅读了文档,但我无法弄清楚如何将聚合函数应用于多个列并正确计算“聚合”的体积(平均值)的平均值。
这是我导入 CSV 文件的代码:
#CSV Import
import pandas as pd
path = r'Z:\Python\30_Min_Data.txt'
from datetime import datetime
customdateparse = lambda x: datetime.strptime(x, '%Y/%m/%d %H:%M:%S.%f')
df = pd.read_csv(
path,
parse_dates={'DateTime': [0, 1]},
date_parser=customdateparse)
# Set the Date as the Index --> needed for Resampling
df.set_index('DateTime', inplace=True)
df.sort_index()
这是我导入后的 DataFrame:
df
Out[3]:
Volume Session
DateTime
2020-12-16 08:00:00 1000 PRTH
2020-12-16 08:30:00 5000 PRTH
2020-12-16 09:00:00 1000 RTH
2020-12-16 09:30:00 3000 RTH
2020-12-17 08:00:00 2000 PRTH
2020-12-17 08:30:00 2000 PRTH
2020-12-17 09:00:00 2000 RTH
2020-12-17 09:30:00 2000 RTH
2020-12-18 08:00:00 1000 PRTH
2020-12-18 08:30:00 1000 PRTH
2020-12-18 09:00:00 1000 RTH
2020-12-18 09:30:00 1000 RTH
2019-11-18 08:00:00 1000 PRTH
2019-11-18 08:30:00 1000 PRTH
2019-11-18 09:00:00 1000 RTH
2019-11-18 09:30:00 1000 RTH
这就是我尝试过的: 由于时间序列重采样,它计算了每天的平均值。我希望它首先对值求和,最后计算平均值。但这确实意味着每天的所有数据。
#2.Volume: Average per Year & Session & Day
funcs_year = lambda idx: idx.year
(df
.groupby([funcs_year,'Session', pd.Grouper(freq='D')])
['Volume']
.mean()
)
Out[6]:
Session DateTime
2019 PRTH 2019-11-18 1000
RTH 2019-11-18 1000
2020 PRTH 2020-12-16 3000
2020-12-17 2000
2020-12-18 1000
RTH 2020-12-16 2000
2020-12-17 2000
2020-12-18 1000
Name: Volume, dtype: int64
这就是我希望正确计算和显示结果的方式(我手动计算): 每天的平均(平均)交易量(分别显示年份和会话):
Year Session Mean Volume
2020 RTH 3.333,33
PRTH 4.000,00
2019 RTH 2.000,00
PRTH 2.000,00
任何人都知道我错过了什么/做错了什么?
解决方案
这对你有用吗:
df['Year']=df['DateTime'].dt.year
(df
.groupby(['Year','Session'])
.apply(lambda x: x['Volume'].sum()/len(x['DateTime'].dt.date.unique()))
)
请注意,“日期时间”现在应该是一列。
我认为这计算了每年和 Session 每天的平均交易量。你能试一试吗?
推荐阅读
- java - java中的休眠
- java - 读取文件并将其保存到二维列表 java
- angular - 将数据渲染到暂时为空的离子视图
- python - 为什么 itertools.groupby() 不起作用?
- blender - 为什么搅拌机中的纹理不适用于所有部分?
- python - 从py到exe的加密程序
- asp.net - ASP.Net Core 2 ServiceProviderOptions.ValidateScopes 属性
- django - Django Rest Framework + Postman + JSON 解析错误
- python - 从新写入的文件中读取的 Python 在模块中不起作用
- c# - Unity - 四元数最大值始终为“1.0”,最小值始终为“-1.0”