python - 使用 jupiter 对大型数据集进行 Panda 操作
问题描述
我有一个非常大的 csv 文件(10Go)一个小例子:
timestamp LAT LON
0 2018-10-18T00:00:00 36.97696 -89.10680
1 2018-10-18T00:00:00 46.08972 -122.92928
2 2018-10-18T00:00:00 48.10739 -122.77227
3 2018-10-18T00:00:00 28.72571 -89.52151
4 2018-10-18T00:00:00 61.11447 -146.35110
我想为每 30 分钟创建一个新的类别变量时隙,但仅适用于小数据:
#I first convert timestamp which is a string to datetime then I do this to get MM:SS time slots
df['time_slot'] = ((df['date']-pd.TimedeltaIndex.dt.minute%30,m)) - ((df['date']-pd.TimedeltaIndex.dt.second,s))).dt.strftime("%H:%M")
当加载大数据时,Jupiter 内核会在尝试创建这些时隙时关闭(知道它可以在小数据集上正常工作)。
解决方案
如果您认为这是一个资源问题,您应该将数据分割并小批量处理转换。我会尝试一个发电机。
推荐阅读
- python - 使用 tweepy 分页/访问 100 多条推文
- spring-boot - Spring boot:用于在管理端口上服务请求的线程池
- java - 如何检查二维数组中的行数和列数以循环检查大小是否合适
- java - Intellij Plugin Configurable 中的标题分隔符
- android - 处理第一个连接后无法重新启动扫描
- python - 如何将 matplotlib 图形组合成多个子图?
- python - 如何用numpy在矩阵中制作斐波那契数?
- java - 尝试使用 GraphicsContext 方法 Public void fill 和 strokepolygon 以绘制正多边形
- python - 如何更改时区?
- javascript - React:如何防止 setInterval 在单击按钮启动后延迟?