python - 如何在“n”个块中使用巨大的 csv 数据?
问题描述
我csv dataset
有 2000 万个条目,其中我也有一个 id
专栏。我在问我怎样才能csv file
在 10 个单独的pandas dataframes
喜欢中阅读这个pd1
,pd2
......如果值id
是1
to 20 mil
,我想pd1
应该到达0
,2000000
应该pd2
到达4000000
并且6000000
该模式应该遵循直到pd10
。我怎样才能做到这一点 ?
注意:这个的主要问题是我可以同时加载整个文件csv file
,因为不够,ram
或者如果我用dask
分割过程加载它会很贵,那么我怎么能在不加载的情况下分割它呢?
解决方案
推荐阅读
- docker - 我的图像中是否包含 FROM 图像层
- python - 如何确定 DST 在 Python 中的某个日期是否有效?
- python - 为什么 scipy.sparse.csc_matrix 不保留我的 np.array 的索引顺序?
- regex - 如何使用正则表达式从字符串中获取两个变量
- python - tkinter - 在由矩形组成的网格中为矩形着色的问题
- go - 将 Go Struct 实例转换为 Lua 表
- ios - 为安装在同一 iOS 设备中的 2 个应用程序获取相同且唯一的标识符
- amazon-web-services - 我应该如何将文件发布到 AWS Lambda 函数、对其进行处理并将文件返回给客户端?
- vue.js - vue 中的全局 $root 事件永远不会到来
- vue.js - 根据属性有条件地仅渲染一次图标