首页 > 解决方案 > 如何对目录中的 keras 图像数据集使用交叉验证?

问题描述

我在 keras 中有一个图像数据集,我直接从相应的函数在训练和测试之间分别加载:

from tensorflow import keras

tds = keras.preprocessing\
    .image_dataset_from_directory('dataset_folder', seed=123,
                                  validation_split=0.35, subset='training')

vds = keras.preprocessing\
    .image_dataset_from_directory('dataset_folder', seed=123,
                                  validation_split=0.35, subset='validation')

然后我经历了我的神经网络的通常阶段:

from tensorflow.keras import layers
from tensorflow.keras.models import Sequential

num_classes = 5

model = Sequential([
    layers.experimental.preprocessing.Rescaling(1.0/255,
                                                input_shape=(256, 256, 3)),
    layers.Conv2D(16, 3, padding='same', activation='relu'),
    layers.MaxPooling2D(),
    layers.Conv2D(32, 3, padding='same', activation='relu'),
    layers.MaxPooling2D(),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(num_classes)])

model\
    .compile(optimizer='adam', metrics=['accuracy'],
             loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True))

hist = model.fit(tds, validation_data=vds, epochs=15)

如何使用 anyKFoldStratifiedKFoldwithin实现交叉验证sklearn.model_selection?如果为了能够做到这一点,我必须改变数据的加载方式,我也会很高兴知道如何去做。

标签: pythonkerasscikit-learncross-validation

解决方案


看看这些在 Keras 中实现交叉验证的建议:

Keras 中的交叉验证

https://machinelearningmastery.com/evaluate-performance-deep-learning-models-keras/

使用 image_dataset_from_directory 加载数据将生成一个 tf.data.dataset 对象,我不确定它是否有助于上述实现。一种替代方法是将图像转换为 Numpy 数组,然后可以通过 K-fold 处理。为此,您可以参考以下内容:

如何使用 Keras 将图像文件夹转换为 X 和 Y 批次?

注意:上面给出的机器学习精通链接中提到了以下语句:

由于计算成本更高,交叉验证通常不用于评估深度学习模型。例如,k 折交叉验证通常与 5 或 10 折一起使用。因此,必须构建和评估 5 或 10 个模型,大大增加了模型的评估时间。


推荐阅读