python - 存储从 Python 生成的大型文本数据集
问题描述
这篇文章很可能被标记为重复,但我已经在网上完成了我的研究,找不到任何关于这个问题的有用信息。
我目前正在处理从 Python 生成的非常大的文本数据集(大约 10TB)。我需要找到一种可靠的方法来存储这个数据集,而不是使用简单的 txt 文件。
据我了解,字符是可以存储文本的最低形式(每个字符 1 个字节)。但是有没有办法在保持字符串原始内容的同时缩短字符串的长度(以节省存储空间)?例如,一个 10 字符的字符串会经过某个操作,该操作会产生一个 <10 字符的字符串,但仍然包含相同的信息?
有一个我试图存储的数据示例(它们没有特定的顺序):
1=>[32,543,7638,5436,764,54363,2345,5246,76534653,354]
2=>[3241,563,3425,764432,54326,5437,637,5432,6546,367,63734,43]
and so on...
如果没有缩短字符串之类的东西,那么存储这么大的数据集的好方法是什么?(又名有没有办法在硬盘驱动器上以小于 10TB 的大小存储 10TB 数据集?)
解决方案
推荐阅读
- python - 向张量添加维度并沿新轴重复值
- google-cloud-platform - 在我的网络服务中随机拒绝
- r - 是否有可以使用连续和分类特征进行 SMOTE 的包或功能?
- php - Symfony 4 Form - Ajax 选择人群
- javascript - 在 material-ui 中打开扩展面板时删除多余的空间
- mongodb - 如何执行这个 mongo 聚合?
- extjs - 如何根据 Extjs4 中的某些条件动态禁用单元格/列?
- selenium - 使用 selenium webdriver 的链接单击给出超时错误,否则链接在浏览器上工作正常
- debugging - 如何在任意点工作室本地调试多个项目
- python - 如何使用 pytest 选项作为夹具而不重复自己?