首页 > 解决方案 > 在 Tensorflow 中训练多个模型时如何避免过多的内存使用

问题描述

我目前正在编写一段代码,旨在解释应用不同的丢弃率如何影响跨多​​个数据集的通用 CNN 模型的性能。

我已经设置好了,对于每个数据集,我训练 10 个不同的模型(具有 10 个不同的退出率)总共 3 次,并记录每次运行和退出的准确性。希望这个数据框能更好地解释我所说的:

在此处输入图像描述

代码看起来像这样:

for i, dataset in tqdm(enumerate(datasets)):
    dataset_path = pathlib.Path(args.input_folder) / dataset

    ds_train, ds_test, ds_validation = loader.get_image_data_generators(dataset_path, BATCH_SIZE)
    CLASS_NAMES = list(ds_train.class_indices.keys())

    INPUT_SHAPE = ds_train.next()[0].shape[1:]
    OUTPUT_SIZE = ds_train.next()[1].shape[1]

    ds_train_size, ds_test_size, ds_validation_size = loader.get_split_sizes(dataset_path)

    performance = {'dataset': [], 'dropout_rate': []}

    # Pre-fill dictionary with dataset and dropout labels.
    performance['dataset'] = [dataset for i in range(DROPOUT_STEPS)]
    performance['dropout_rate'] = [i/DROPOUT_STEPS for i in range(DROPOUT_STEPS)]

    for run_i in range(RUNS):
        performance[f'run_{run_i}_acc'] = []

        for i in range(DROPOUT_STEPS):

            # Compute dropout rate.
            dropout_rate = i / DROPOUT_STEPS

            # Initialize model
            model = models.Sequential()
            model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=INPUT_SHAPE))

            model.add(layers.MaxPooling2D((2, 2)))
            model.add(layers.Conv2D(64, (3, 3), activation='relu'))

            model.add(layers.MaxPooling2D((2, 2)))
            model.add(layers.Conv2D(64, (3, 3), activation='relu'))

            model.add(layers.Flatten())
            model.add(layers.Dense(64, activation='relu'))
            model.add(layers.Dropout(dropout_rate))
            model.add(layers.Dense(OUTPUT_SIZE, activation='softmax'))

            model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

            model.fit(
                x=ds_train,
                epochs=EPOCHS, 
                steps_per_epoch=math.ceil(ds_train_size / BATCH_SIZE), 
                validation_data=ds_validation, 
                validation_steps=math.ceil(ds_validation_size / BATCH_SIZE)
            )

            test_loss, test_accuracy = model.evaluate(ds_test, steps=math.ceil(ds_test_size / BATCH_SIZE))
            performance[f'run_{run_i}_acc'].append(test_accuracy)
            print(f'✔️  Dropout rate {dropout_rate} resulted on {test_accuracy}')

    df = pd.DataFrame(performance)
    print(df)

    df.to_pickle(f'output/performance/{dataset}-perf.pkl')

在一些(较小的)数据集中,这运行平稳。在较大的数据集中,我的计算机的内存使用量缓慢上升,并且在某些情况下,在第二次运行时停止整个过程,抱怨没有足够的可用内存。

在此处输入图像描述

我将如何优化此代码,避免过多的内存使用?Tensorflow 在运行甚至退出步骤之间进行迭代时是否会保存任何临时文件?如果是这样,我如何在每个循环周期重置内存?

谢谢您的帮助。

标签: tensorflowconv-neural-networkdropout

解决方案


tf.keras.backend.clear_session()在每个模型训练后清除内存。Keras 文档说明如下:

如果您在循环中创建多个模型,则此全局状态将随着时间的推移消耗越来越多的内存,您可能需要清除它。调用 clear_session() 释放全局状态:这有助于避免旧模型和层造成混乱,尤其是在内存有限的情况下。


推荐阅读