首页 > 解决方案 > resnet示例的梯度同步问题

问题描述

ray 提供了一个resnet 分布训练的例子。但梯度同步很奇怪:

  1. 同步权重
  2. 独立训练每个工人特定的步骤。
  3. 返回第 1 步。

这个工作流程有什么理由吗?

我认为它既不是同步也不是异步方法。

标签: ray

解决方案


这是对普通同步 SGD 的轻微概括。如果您在第 2 步中对每个工人进行准确的一步训练,那么它就是常规批量 SGD。


推荐阅读