首页 > 解决方案 > 使用 jupiter 对大型数据集进行 Panda 操作

问题描述

我有一个非常大的 csv 文件(10Go)一个小例子:

          timestamp       LAT        LON
0  2018-10-18T00:00:00  36.97696  -89.10680
1  2018-10-18T00:00:00  46.08972 -122.92928
2  2018-10-18T00:00:00  48.10739 -122.77227
3  2018-10-18T00:00:00  28.72571  -89.52151
4  2018-10-18T00:00:00  61.11447 -146.35110

我想为每 30 分钟创建一个新的类别变量时隙,但仅适用于小数据:

#I first convert timestamp which is a string to datetime then I do this to get MM:SS time slots
df['time_slot'] = ((df['date']-pd.TimedeltaIndex.dt.minute%30,m)) - ((df['date']-pd.TimedeltaIndex.dt.second,s))).dt.strftime("%H:%M")

当加载大数据时,Jupiter 内核会在尝试创建这些时隙时关闭(知道它可以在小数据集上正常工作)。

标签: pythonpandas

解决方案


如果您认为这是一个资源问题,您应该将数据分割并小批量处理转换。我会尝试一个发电机。


推荐阅读