首页 > 解决方案 > 如何在 Google Colab 中提取一个非常大的文件

问题描述

我正在尝试提取 14.6 GB 7z 文件(https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z)。

我已将其下载并保存在我的 Google Drive 中。我将驱动器挂载到 Google Colab,然后将当前目录更改为文件所在的位置:os.chdir('/content/drive/My Drive/.../')

当我尝试解压缩文件!p7zip -k -d stackoverflow.com-Posts.7z时,它使用当前实例的硬盘空间,并且在此过程中,它耗尽了所有可用的已分配硬盘空间,因此解压缩突然终止。

有没有一种方法可以在不使用实例的 HDD 空间的情况下提取文件,或者以块的形式进行提取,以便提取成功。

PS:我相信,解压后文件大小约为 100 GB

标签: google-drive-apigoogle-colaboratory

解决方案


您可以尝试使用 libarchive 按块读取数据,而无需先解压缩。

https://github.com/dsoprea/PyEasyArchive

这是一个示例笔记本


推荐阅读