首页 > 解决方案 > torch Adamoptimizer 在 optimizer.step() 中产生 cuda 错误

问题描述

使用 3 Torch Linear 层添加我的自定义损失函数后,

我收到一个 cuda 错误

class KLDLoss(nn.Module):
  def __init__(self, reduction='sum'):
      super(KLDLoss, self).__init__()
      self.reduction = reduction

  def forward(self, mean, logvar):
    # KLD loss
      kld_loss = -0.5 * torch.sum(1 + logvar - mean.pow(2) - logvar.exp(), 1)
    # Size average
      if self.reduction == 'mean':
        kld_loss = torch.mean(kld_loss)
      elif self.reduction == 'sum':
        kld_loss = torch.sum(kld_loss)
      return kld_loss

class Latent_Classifier(nn.Module):
    def __init__(self):
        super(Latent_Classifier, self).__init__()
        layers = []
        layers += [nn.Linear(128, 750)]
        layers += [nn.Linear(750, 750)]
        layers += [nn.Linear(750, 1)]

        self.seq = nn.Sequential(*layers)
  def forward(self, latent_z):
    x = self.seq(latent_z)

    return -torch.mean(torch.log(x)) - torch.mean(torch.log(1 - x))

KLDLoss 没有错误,但在经过一些训练阶段后,潜在分类器有错误optimizer.step()

105                     denom = (max_exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
   
106                 else:

--> 107                     denom = (exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])

108 

109                 step_size = group['lr'] / bias_correction1

RuntimeError: CUDA error: device-side assert triggered

我的潜在分类器代码中是否存在错误?

优化器 isAdamOptimizer和 args 是0.0002 lr, (0.5, 0.999)betas

标签: pythonpytorch

解决方案


根据我的经验,这些类型的 CUDA 错误可能是由两件事引起的:

  • 尝试访问嵌入层中的越界索引
  • 尝试执行无效操作,例如零或负值的日志

所以我的猜测是:你试图在区间 ]0,1[ (不包括 0 和 1)之外的东西上使用 KLDiv。在输出层添加一个sigmoid激活,问题应该就解决了……

你可以在 CPU 上运行你的代码,你会得到一个更有意义的错误信息。


推荐阅读