python - 在python中为离线算法存储大型数据集的有效方法

首页 > 解决方案 > 在python中为离线算法存储大型数据集的有效方法

问题描述

我需要在大型数据集上运行一些离线算法（以测试其可扩展性）。数据集可以大到 1000 万 * 10000。

我认为在这种情况下我不能使用小批量，因为我的算法是离线的，这意味着它需要一次所有数据。使用 numpy 创建如此大的数据集时会出现内存错误。我也无权访问根，因为我在集群上运行作业。

我想知道在这种情况下，是否仍然可以在 python 中生成如此大的数据集？

标签： pythonmachine-learningout-of-memorydata-science

解决方案

推荐阅读