首页 > 解决方案 > 存储从 Python 生成的大型文本数据集

问题描述

这篇文章很可能被标记为重复,但我已经在网上完成了我的研究,找不到任何关于这个问题的有用信息。

我目前正在处理从 Python 生成的非常大的文本数据集(大约 10TB)。我需要找到一种可靠的方法来存储这个数据集,而不是使用简单的 txt 文件。

据我了解,字符是可以存储文本的最低形式(每个字符 1 个字节)。但是有没有办法在保持字符串原始内容的同时缩短字符串的长度(以节省存储空间)?例如,一个 10 字符的字符串会经过某个操作,该操作会产生一个 <10 字符的字符串,但仍然包含相同的信息?

有一个我试图存储的数据示例(它们没有特定的顺序):

1=>[32,543,7638,5436,764,54363,2345,5246,76534653,354]
2=>[3241,563,3425,764432,54326,5437,637,5432,6546,367,63734,43]
and so on...

如果没有缩短字符串之类的东西,那么存储这么大的数据集的好方法是什么?(又名有没有办法在硬盘驱动器上以小于 10TB 的大小存储 10TB 数据集?)

标签: pythondatabasetxt

解决方案


推荐阅读