首页 > 解决方案 > 辍学是如何工作的(使用多个 GPU)?

问题描述

假设我正在使用多个 GPU,并且正在训练一个使用 dropout 的神经网络。我知道 dropout 会为每个训练样本随机关闭网络中的某些节点,然后只更新“细化网络”中的权重,那么这似乎是一个非常连续的过程。并行期间如何组合权重更新?

例如,输入 #1 删除了一些x节点,输入 #2 删除了一些其他y节点。假设z节点对子网络的两个实例都是通用的。在开始前馈输入 #2 之前,dropout 是否需要完成输入 #1 的反向传播?或者如果它并行发生,那么 $z$ 节点是如何更新的?

我已经看过这个帖子,但帖子中的答案似乎没有回答这个问题。

标签: neural-networkdropout

解决方案


推荐阅读