首页 > 解决方案 > 如何在“n”个块中使用巨大的 csv 数据?

问题描述

csv dataset有 2000 万个条目,其中我也有一个 id专栏。我在问我怎样才能csv file在 10 个单独的pandas dataframes喜欢中阅读这个pd1pd2......如果值id1to 20 mil,我想pd1应该到达02000000应该pd2到达4000000并且6000000该模式应该遵循直到pd10。我怎样才能做到这一点 ?

注意:这个的主要问题是我可以同时加载整个文件csv file,因为不够,ram或者如果我用dask分割过程加载它会很贵,那么我怎么能在不加载的情况下分割它呢?

标签: pythonpandas

解决方案


推荐阅读