首页 > 解决方案 > Tensorflow 在每个 epoch 结束时卡住了几秒钟

问题描述

我正在通过 TFRecordDataset 训练神经网络。然而,在每个 epoch 结束时,即ETA: 0s,训练会停滞数十秒。作为参考,在大约 25GB 的数据集上完成一个 epoch 大约需要一分钟(在解析特征子集之前)。

我正在使用 Nvidia Titan RTX GPU 运行 TensorFlow 2.3.1。这是预期的行为吗?也许是由于输入管道中的预处理?该预处理是仅由 CPU 执行还是卸载到 GPU 上?谢谢!

标签: pythontensorflowkerasdatasetnvidia

解决方案


如果您有一个验证集并且正在使用model.fit(),则可能是计算损失和指标所需的时间。在大多数情况下,计算 80/20 拆分的指标需要额外的 25%。


推荐阅读