首页 > 解决方案 > 计算大型数据框的最佳方法?

问题描述

我正在尝试找到处理大约 8000 万行数据集的最佳方法。我需要对这些数据进行一些计算。我正在尝试for循环,但需要永远。

我有如下数据(从一个地区到另一个地区的个人出租车行程,分辨率为 15 分钟):

timestamp,        origin_area, destination_area

2014-01-27 11:00:00, 28.0,        32.0

2014-01-27 11:00:00, 28.0,        32.0

2013-01-01 01:00:00, 28.0,        1.0

2013-01-01 01:15:00, 28.0,        2.0

我需要将这些数据转换成这样的一些列:

timestamp, origin_area, destination_area,(该时间戳中不同起点-目的地对的行程总和),(该时间戳中来自起点区域的所有行程总和)

我有哪些选项可以快速处理这些计算并创建如上所述的其他列?

谢谢

标签: pythonpandas

解决方案


我得到了groupby()size()来做到这一点。

df.groupby(['timestamp', 'origin_area','destination_area']).size().reset_index(name='Count').sort_values(by="timestamp", 
                                                                            ascending=False).reset_index(drop=True)

在此处输入图像描述

;)


推荐阅读