首页 > 解决方案 > 在python中为离线算法存储大型数据集的有效方法

问题描述

我需要在大型数据集上运行一些离线算法(以测试其可扩展性)。数据集可以大到 1000 万 * 10000。

我认为在这种情况下我不能使用小批量,因为我的算法是离线的,这意味着它需要一次所有数据。使用 numpy 创建如此大的数据集时会出现内存错误。我也无权访问根,因为我在集群上运行作业。

我想知道在这种情况下,是否仍然可以在 python 中生成如此大的数据集?

标签: pythonmachine-learningout-of-memorydata-science

解决方案


推荐阅读