python - 如何在 Pandas 中按日期列对数据集进行分组?
问题描述
我有一个包含数千行的数据集,每行包含销售额和订单日期。我需要这个数据集来运行 ARIMA 预测模型,因为每个日期都有多个订单,这意味着许多行具有相同的日期,我想按日期对行进行分组。“2020/07/10”获取每个日期的销售额总和。
我尝试运行以下代码,但它返回的日期列表与原始日期不同:
mc_raw = pd.read_csv(r'C:\Users\MJ90C\Desktop\PowerBI\cmd.csv', sep=";", parse_dates = ['date_add'])
print(mc_raw.head())
然后我对数据集进行子集化:
forecast_data = mc_raw[['date_add','total_paid']]
最后,我按日期将数据分组如下:
forecast_data_0 = forecast_data.groupby(forecast_data.date_add.dt.date).agg({'total_paid':'sum'})
print(forecast_data_0)
似乎“分组依据”工作正常,因为它汇总了“total_paid”列。无论如何,日期列表很奇怪,因为日期格式不同,此外它应该返回每天的销售额,而不是看起来我从原始数据集中丢失了很多天。
感谢所有会提出任何解决方案的人!
让我知道是否需要提供更多详细信息。
解决方案
推荐阅读
- python - 如何使用熊猫规范化这个 json?
- python - 在 matplotlib 散点图中向 X 标记添加边
- animation - 在 BottomSheet 中实现转换
- tensorflow - 使用 Estimator 接口通过预训练的 tensorflow 对象检测模型进行推理
- python - 为 matplotlib 散点图中的每个标记提供单独的 zorder 值
- reactjs - 带有父路径的奇怪的 react-router v4 行为
- php - 最大 int 值结果函数 time()
- javascript - 如何在 JS(节点)中使用回调来等待 Async 函数完成后再继续?
- cuda - GeForce MX150 有多少个流式多处理器?
- java - 无法实现的Java可见界面