首页 > 解决方案 > 在固定训练时间后保存 tensorflow 模型

问题描述

我正在一台服务器上训练一个模型,它只允许我进行一个小时的计算:在那段时间结束时,它只会扼杀我的工作。我希望 tensorflow 在训练 58 分钟后保存其训练结果,无论当前状态如何。我可以在最后一个完成的时期保存状态,我只是想知道发生了什么。我怎样才能做到这一点?

标签: pythontensorflow

解决方案


当然,你可以定义一个回调函数委托来停止训练阶段。

您可以在这里查看更多信息:
https ://towardsdatascience.com/neural-network-with-tensorflow-how-to-stop-training-using-callback-5c8d575c18a9

在此示例中,创建了一个回调函数,以便在“准确度”超过阈值时停止训练阶段。您可以修改函数以进行时间计算,以验证经过的时间。


这是一段工作代码:

class TimeOut(Callback):
    def __init__(self, t0, timeout):
        super().__init__()
        self.t0 = t0
        self.timeout = timeout  # time in minutes

    def on_train_batch_end(self, batch, logs=None):
        if time.time() - self.t0 > self.timeout * 60:  # 58 minutes
            print(f"\nReached {(time.time() - self.t0) / 60:.3f} minutes of training, stopping")
            self.model.stop_training = True

callbacks = [TimeOut(t0=time.time(), timeout=58)]

推荐阅读