首页 > 解决方案 > Keras 回调如何在使用 tensorflow 2.0 的分布式训练中执行

问题描述

众所周知,在使用 keras 编写模型时,我们可以定义回调来执行诸如学习率计划、提前停止等操作。以 early stop 为例,我想知道在分布式环境中执行训练时,哪个节点执行回调?还是所有节点都使用本地计算的指标数据执行提前停止?还是有一个主节点执行这个?

标签: tensorflow2.0

解决方案


当您使用 MirroredStrategy 时,训练由 CPU 管理,因此我认为将是 CPU 调用回调。


推荐阅读