machine-learning - 如何在内存和批次方面使用大数据集进行多标签图像分类
问题描述
我正在研究一个包含 300K 图像的数据集,进行多类图像分类。到目前为止,我获取了一个包含大约 7k 图像的小型数据集,但是代码要么返回内存错误,要么我的笔记本就死了。下面的代码一次将所有图像转换为一个 numpy 数组,这会在执行最后一行代码时导致我的内存出现问题。train.csv 包含图像文件名和一个热编码标签。代码是这样的:
data = pd.read_csv('train.csv')
img_width = 400
img_height = 400
img_vectors = []
for i in range(data.shape[0]):
path = 'Images/' + data['Id'][
img = image.load_img(path, target_size=(img_width, img_height, 3))
img = image.img_to_array(img)
img = img/255.0
img_vectors.append(img)
img_vectors = np.array(img_vectors)
错误信息:
MemoryError Traceback (most recent call last)
<ipython-input-13-dd2302ae54e1> in <module>
----> 1 img_vectors = np.array(img_vectors)
MemoryError: Unable to allocate array with shape (7344, 400, 400, 3) and data type float32
我想我需要一批较小的数组来处理所有图像的内存问题,以避免一个数组同时包含所有图像数据。
在一个较早的项目中,我使用大约 225k 图像进行了没有多标签的图像分类。无论如何,这段代码不会将所有图像数据转换为一个巨大的数组。而是将图像数据分成更小的批次:
#image preparation
if K.image_data_format() is "channels_first":
input_shape = (3, img_width, img_height)
else:
input_shape = (img_width, img_height, 3)
train_datagen = ImageDataGenerator(rescale=1./255, horizontal_flip=True)
test_datagen = ImageDataGenerator(rescale=1./255)
train_generator = train_datagen.flow_from_directory(train_data_dir, target_size=(img_width, img_height), batch_size=batch_size, class_mode='categorical')
validation_generator = test_datagen.flow_from_directory(validation_data_dir, target_size=(img_width, img_height), batch_size=batch_size, class_mode='categorical')
model = Sequential()
model.add(Conv2D(32, (3,3), input_shape=input_shape))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
...
model.add(Dense(17))
model.add(BatchNormalization(axis=1, momentum=0.6))
model.add(Activation('softmax'))
model.summary()
model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])
model.fit_generator(
train_generator,
steps_per_epoch=nb_train_samples // batch_size,
epochs=epochs,
validation_data=validation_generator,
validation_steps=nb_validation_samples // batch_size,
class_weight = class_weight
)
所以我真正需要的是一种方法,我可以如何处理大型图像数据集以进行多标签图像分类,而不会遇到内存问题。理想的做法是使用包含图像文件名和单热编码标签的 csv 文件,并结合数组批次进行学习。
在这里的任何帮助或猜测将不胜感激。
解决方案
解决您面临的问题的最简单方法是编写服装数据生成器,这里有一个教程展示了如何做到这一点。这个想法是,您创建生成一个服装数据加载器,而不是使用flow_from_directory
,它从其源路径读取每个图像并为 y 提供相应的标签。实际上,我认为您的数据存储在 .csv 文件中,其中每一行都包含图像的路径以及图像中存在的标签。因此,您的数据生成将具有一个函数getittem (self, index),它将从原始数字索引中的路径读取图像,并与通过读取此原始标签和一个热编码它们获得的目标一起返回,然后对它们求和.
推荐阅读
- reactjs - React Native FilatList 和 ScrollView 详细信息屏幕
- android - DrawerLayout 内的 RecyclerView
- javascript - 日期到 UTC 字符串在一天内返回日期,但比较返回 false
- python - 在 Python 中运行函数时未定义参数
- python-3.x - 现在有在 Windows 10 上安装 CuPy 的首选方法吗?
- python-3.x - 使用 discord.py 检查频道中用户的最简单方法
- javascript - React - 如何将一个简单的函数转换为一个类?
- mule - Dataweave 2.0 的输出不正确
- bash - 在编写 BASH 脚本时使用 scp:“没有这样的文件或目录”
- ruby-on-rails - Rails 6 sqlite3中的更新/删除语法错误