python - 在python中为离线算法存储大型数据集的有效方法
问题描述
我需要在大型数据集上运行一些离线算法(以测试其可扩展性)。数据集可以大到 1000 万 * 10000。
我认为在这种情况下我不能使用小批量,因为我的算法是离线的,这意味着它需要一次所有数据。使用 numpy 创建如此大的数据集时会出现内存错误。我也无权访问根,因为我在集群上运行作业。
我想知道在这种情况下,是否仍然可以在 python 中生成如此大的数据集?
解决方案
推荐阅读
- sass - Hugo 检测到 css 变化但输出没有变化
- android - 我在运行 Android 时遇到问题我得到这个:错误无法启动模拟器。原因
- javascript - 需要帮助理解此示例中 Reactjs 的双重导出
- r - 确定一天中的最后一次和第一次测量
- python - 在 python 上绘制 PSD(功率谱密度)时需要帮助
- c# - 具有组织/Office 365/Microsoft 帐户身份验证的 Blazor(服务器端);如何做本地多个角色?
- django - 我在 Django 的 Gunicorn 的 Procfile 中放了什么?
- nexus - Flutter pub_hosted_url 镜像 sonatype nexus
- javascript - Javascript querySelectorAll 具有特定类的父元素的元素
- html - 从子导航菜单中删除边距