python - 存储从 Python 生成的大型文本数据集

这篇文章很可能被标记为重复，但我已经在网上完成了我的研究，找不到任何关于这个问题的有用信息。

我目前正在处理从 Python 生成的非常大的文本数据集（大约 10TB）。我需要找到一种可靠的方法来存储这个数据集，而不是使用简单的 txt 文件。

据我了解，字符是可以存储文本的最低形式（每个字符 1 个字节）。但是有没有办法在保持字符串原始内容的同时缩短字符串的长度（以节省存储空间）？例如，一个 10 字符的字符串会经过某个操作，该操作会产生一个 <10 字符的字符串，但仍然包含相同的信息？

有一个我试图存储的数据示例（它们没有特定的顺序）：

1=>[32,543,7638,5436,764,54363,2345,5246,76534653,354]
2=>[3241,563,3425,764432,54326,5437,637,5432,6546,367,63734,43]
and so on...

如果没有缩短字符串之类的东西，那么存储这么大的数据集的好方法是什么？（又名有没有办法在硬盘驱动器上以小于 10TB 的大小存储 10TB 数据集？）

标签： pythondatabasetxt