python - torch Adamoptimizer 在 optimizer.step() 中产生 cuda 错误
问题描述
使用 3 Torch Linear 层添加我的自定义损失函数后,
我收到一个 cuda 错误
class KLDLoss(nn.Module):
def __init__(self, reduction='sum'):
super(KLDLoss, self).__init__()
self.reduction = reduction
def forward(self, mean, logvar):
# KLD loss
kld_loss = -0.5 * torch.sum(1 + logvar - mean.pow(2) - logvar.exp(), 1)
# Size average
if self.reduction == 'mean':
kld_loss = torch.mean(kld_loss)
elif self.reduction == 'sum':
kld_loss = torch.sum(kld_loss)
return kld_loss
class Latent_Classifier(nn.Module):
def __init__(self):
super(Latent_Classifier, self).__init__()
layers = []
layers += [nn.Linear(128, 750)]
layers += [nn.Linear(750, 750)]
layers += [nn.Linear(750, 1)]
self.seq = nn.Sequential(*layers)
def forward(self, latent_z):
x = self.seq(latent_z)
return -torch.mean(torch.log(x)) - torch.mean(torch.log(1 - x))
KLDLoss 没有错误,但在经过一些训练阶段后,潜在分类器有错误optimizer.step()
105 denom = (max_exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
106 else:
--> 107 denom = (exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
108
109 step_size = group['lr'] / bias_correction1
RuntimeError: CUDA error: device-side assert triggered
我的潜在分类器代码中是否存在错误?
优化器 isAdamOptimizer
和 args 是0.0002 lr, (0.5, 0.999)betas
解决方案
根据我的经验,这些类型的 CUDA 错误可能是由两件事引起的:
- 尝试访问嵌入层中的越界索引
- 尝试执行无效操作,例如零或负值的日志
所以我的猜测是:你试图在区间 ]0,1[ (不包括 0 和 1)之外的东西上使用 KLDiv。在输出层添加一个sigmoid激活,问题应该就解决了……
你可以在 CPU 上运行你的代码,你会得到一个更有意义的错误信息。
推荐阅读
- eclipse - 在 Eclipse 中引用外部文件:虚拟链接文件与项目属性中的构建设置?
- angular - 手动传递的 Angular 路由变量在组件中未定义
- android - Android 支持库文件夹没有更新版本
- python - NLP 分类器 - Python 太多的值无法解包
- reactjs - 在 React JS 中以编程方式重定向子组件内部不起作用
- python - Python Pandas:将列表或系列分成不同大小的列
- javascript - 我的 Javascript 似乎不起作用(部分)
- graphql - 突变的阿波罗反应是不确定的
- java - 模拟 android.content.res.Configuration 类型的对象并为其分配语言环境
- android - 如何应用recyclerview +加载更多上下滚动