python - Tensorflow 在每个 epoch 结束时卡住了几秒钟

首页 > 解决方案 > Tensorflow 在每个 epoch 结束时卡住了几秒钟

问题描述

我正在通过 TFRecordDataset 训练神经网络。然而，在每个 epoch 结束时，即ETA: 0s，训练会停滞数十秒。作为参考，在大约 25GB 的数据集上完成一个 epoch 大约需要一分钟（在解析特征子集之前）。

我正在使用 Nvidia Titan RTX GPU 运行 TensorFlow 2.3.1。这是预期的行为吗？也许是由于输入管道中的预处理？该预处理是仅由 CPU 执行还是卸载到 GPU 上？谢谢！

标签： pythontensorflowkerasdatasetnvidia

解决方案

如果您有一个验证集并且正在使用model.fit()，则可能是计算损失和指标所需的时间。在大多数情况下，计算 80/20 拆分的指标需要额外的 25%。

推荐阅读