首页 > 解决方案 > 无法在 Google Colab 中读取 3GB 文件

问题描述

我似乎在 Google Colab Pro 中遇到了从 Drive 读取的资源限制(甚至将数据从驱动器传输到 /tmp/ colab 本地存储)。在过去的一个月里,我一直在大量使用它,训练大型 BERT 模型并保存相对较大的数据集(3-5GB)。我现在才收到的一个错误示例(在成功读取多次后),以下代码导致 Colab 崩溃:

from google.colab import drive
drive.mount('/content/drive')

!pip install transformers==3.5.0
!pip install datasets==1.0.2

import transformers
import torch
import datasets

# retrieve data
split_main = datasets.load_from_disk('bigquery/combined')

我要加载的数据集是一个大小约为 3GB 的箭头文件,datasets.load_from_disk() 将对文件进行内存映射。现在,为了测试这个问题,我还尝试为一个完全不同的数据集读取一个大的 .csv。它也会出错,但不会崩溃。我得到输入/输出错误。但是,这两个文件之前都已毫无问题地读取。

从 Colab 对 Google 驱动器的读/写访问权限方面是否存在资源限制?

我指的不是驱动器存储(我有很多),也不是使用 Colab Pro 时遇到内存限制。

这将是同一代码一次工作然后再次抛出输入/输出错误的唯一解释。

标签: pythongoogle-colaboratory

解决方案


已知问题,修复待定,但需要一点时间才能落地;https://github.com/googlecolab/colabtools/issues/1607#issuecomment-701704057中的解决方法。


推荐阅读