首页 > 解决方案 > 如何在 Pandas 中按日期列对数据集进行分组?

问题描述

我有一个包含数千行的数据集,每行包含销售额和订单日期。我需要这个数据集来运行 ARIMA 预测模型,因为每个日期都有多个订单,这意味着许多行具有相同的日期,我想按日期对行进行分组。“2020/07/10”获取每个日期的销售额总和。

我尝试运行以下代码,但它返回的日期列表与原始日期不同:

  mc_raw = pd.read_csv(r'C:\Users\MJ90C\Desktop\PowerBI\cmd.csv',  sep=";", parse_dates = ['date_add'])

print(mc_raw.head())

在此处检查打印结果:

然后我对数据集进行子集化:

forecast_data = mc_raw[['date_add','total_paid']]

最后,我按日期将数据分组如下:

forecast_data_0 = forecast_data.groupby(forecast_data.date_add.dt.date).agg({'total_paid':'sum'})
print(forecast_data_0)

在此处查看打印结果

似乎“分组依据”工作正常,因为它汇总了“total_paid”列。无论如何,日期列表很奇怪,因为日期格式不同,此外它应该返回每天的销售额,而不是看起来我从原始数据集中丢失了很多天。

感谢所有会提出任何解决方案的人!

让我知道是否需要提供更多详细信息。

标签: pythonpandaspandas-groupbygroupingarima

解决方案


推荐阅读