python-3.x - Pytorch - 在 GPU 上训练时在设备 1 上的副本 1 中捕获 StopIteration 错误
问题描述
我正在尝试在 git 链接中使用的 train2012 数据上训练 BertPunc 模型:https ://github.com/nkrnrnk/BertPunc 。在服务器上运行时,启用了 4 个 GPU,以下是我得到的错误:
StopIteration: Caught StopIteration in replica 1 on device 1.
Original Traceback (most recent call last):
File "/home/stenoaimladmin/.local/lib/python3.8/site-packages/torch/nn/parallel/parallel_apply.py", line 61, in _worker
output = module(*input, **kwargs)
File "/home/stenoaimladmin/.local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 727, in _call_impl
result = self.forward(*input, **kwargs)
File "/home/stenoaimladmin/notebooks/model_BertPunc.py", line 16, in forward
x = self.bert(x)
File "/home/stenoaimladmin/.local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 727, in _call_impl
result = self.forward(*input, **kwargs)
File "/home/stenoaimladmin/anaconda3/lib/python3.8/site-packages/pytorch_pretrained_bert/modeling.py", line 861, in forward
sequence_output, _ = self.bert(input_ids, token_type_ids, attention_mask,
File "/home/stenoaimladmin/.local/lib/python3.8/site-packages/torch/nn/modules/module.py", line 727, in _call_impl
result = self.forward(*input, **kwargs)
File "/home/stenoaimladmin/anaconda3/lib/python3.8/site-packages/pytorch_pretrained_bert/modeling.py", line 727, in forward
extended_attention_mask = extended_attention_mask.to(dtype=next(self.parameters()).dtype) # fp16 compatibility
StopIteration
从链接:https ://github.com/huggingface/transformers/issues/8145 ,当数据在多个 GPU 之间来回移动时,这似乎发生了。
根据 git 链接:https ://github.com/interpretml/interpret-text/issues/117 ,我们需要将 PyTorch 版本从我目前使用的 1.7 降级到 1.4。对我来说,降级版本不是一个选项,因为我有其他使用 Torch 1.7 版本的脚本。我应该怎么做才能克服这个错误?
由于行太多,我无法将整个代码放在这里,但这是给我错误的代码段:
bert_punc, optimizer, best_val_loss = train(bert_punc, optimizer, criterion, epochs_top,
data_loader_train, data_loader_valid, save_path, punctuation_enc, iterations_top, best_val_loss=1e9)
这是我的 DataParallel 代码:
bert_punc = nn.DataParallel(BertPunc(segment_size, output_size, dropout)).cuda()
我尝试更改 Dataparallel 线以将训练转移到只有 1 个 GPU ,目前有 4 个。但这给了我一个空间问题,因此不得不将代码恢复为默认值。
这是我正在使用的所有脚本的链接:https ://github.com/nkrnrnk/BertPunc 请建议。
解决方案
改变
extended_attention_mask = extended_attention_mask.to(dtype=next(self.parameters()).dtype) # fp16 compatibility
至
extended_attention_mask = extended_attention_mask.to(dtype=torch.float32) # fp16 compatibility
有关更多详细信息,请参阅https://github.com/vid-koci/bert-commonsense/issues/6
推荐阅读
- r - 使用 geom_col 正确显示带有子分组的列
- python - 我必须提供参数 arr 两次,一次在 Sorting(arr) 中,一次在 quicksort(arr) 中,如何只使用一次 arr 重写代码?
- image - 如何以编程方式替换 Gimp 图像中的文本
- javascript - 从 mixin 打开全局模态
- python - 如何将字符串列表转换为python中的字母列表?
- configuration - 你如何覆盖 OpenFeign 的 Hystrix 配置?
- yaml - 如果 helm 模板上的条件加上 dict 怎么办?
- javascript - 如何从 axios 返回布尔值以禁用 vue 中的按钮
- android - Confused with launchMode
- linux - 如何更改 Kubernetes 中的文件系统观察程序限制 (fs.inotify.max_user_watches)