python - 无法在 Google Colab 中读取 3GB 文件
问题描述
我似乎在 Google Colab Pro 中遇到了从 Drive 读取的资源限制(甚至将数据从驱动器传输到 /tmp/ colab 本地存储)。在过去的一个月里,我一直在大量使用它,训练大型 BERT 模型并保存相对较大的数据集(3-5GB)。我现在才收到的一个错误示例(在成功读取多次后),以下代码导致 Colab 崩溃:
from google.colab import drive
drive.mount('/content/drive')
!pip install transformers==3.5.0
!pip install datasets==1.0.2
import transformers
import torch
import datasets
# retrieve data
split_main = datasets.load_from_disk('bigquery/combined')
我要加载的数据集是一个大小约为 3GB 的箭头文件,datasets.load_from_disk() 将对文件进行内存映射。现在,为了测试这个问题,我还尝试为一个完全不同的数据集读取一个大的 .csv。它也会出错,但不会崩溃。我得到输入/输出错误。但是,这两个文件之前都已毫无问题地读取。
从 Colab 对 Google 驱动器的读/写访问权限方面是否存在资源限制?
我指的不是驱动器存储(我有很多),也不是使用 Colab Pro 时遇到内存限制。
这将是同一代码一次工作然后再次抛出输入/输出错误的唯一解释。
解决方案
已知问题,修复待定,但需要一点时间才能落地;https://github.com/googlecolab/colabtools/issues/1607#issuecomment-701704057中的解决方法。
推荐阅读
- swift - Swift 结构扩展协议
- java - JVM 中的 -Xms 和 -Xmx 相等
- regex - 列表上下文中的匹配不会返回空列表。为什么?
- node.js - NODEJS 问题上的 Web Socket:连接建立错误:net::ERR_CERT_AUTHORITY_INVALID
- node.js - 在调用 res.send 之前,我应该如何等待这个流完成?
- java - 创建具有多种数据类型的json?
- c# - 分配变量并在 IF 评估中检查它
- javascript - Ipad Safari 选择可防止用户单击顶部的元素
- sql - 如何创建一个列表,显示一周内所有服务过的唯一员工
- node.js - 当一个模块依赖于来自@nestjs/mongoose的Mongoose模型时的Nestjs依赖注入顺序,里面有详细的图表