首页 > 解决方案 > 训练 OpenAI 点唱机上采样器时,损失值会在一段时间后变得疯狂

问题描述

在使用 OpenAI Jukebox 训练上采样器时,在第一个 epoch 结束时(大约 2 天后)有更多的“反向溢出”消息,最终损失值跃升 20。可能是什么问题?使用相同数据的 VQVAE 训练没有任何问题。


 98% 28837/29318 [51:38:38<51:38,  6.44s/it, bpd=5.07, g_l=5.07, gn=43.4, l=5.07, p_l=0]

Warning. Loss is 25.929014205932617

Overflow in backward. Loss 25.929014205932617, grad norm nan, lgscale -7.203999999995833, new lgscale -8.203999999995833

 98% 28838/29318 [51:38:45<51:46,  6.47s/it, bpd=5.07, g_l=5.07, gn=43.4, l=5.07, p_l=0]

Warning. Loss is 26.65635871887207

 98% 28838/29318 [51:38:52<51:46,  6.47s/it, bpd=26.7, g_l=26.7, gn=1.01e+8, l=26.7, p_l=0]
 98% 28839/29318 [51:38:52<53:08,  6.66s/it, bpd=26.7, g_l=26.7, gn=1.01e+8, l=26.7, p_l=0]```

标签: pytorchopenai

解决方案


推荐阅读