python - 图像预处理 - 为 CNN 创建数据集
问题描述
我是 CNN 的新手,我需要构建一个管道来加载图像并让它们为 CNN 做好准备。问题是我需要构建一个由图像形成的数据集。图像分为三类:COVID-19、健康肺和肺炎。我拥有的文件是:
- 1 个文件夹,其中包含带有 covid-19 的肺部图像
- 1 个包含健康肺部图像的文件夹
- 1 个包含肺炎图像的文件夹
- 1 个 .txt 文件,其中包含将形成训练数据集的所有图像
- 1 个 .txt 文件,其中包含将形成验证数据集的所有图像
- 1 个 .txt 文件,其中包含将形成文本数据集的所有图像
我一直在互联网上搜索,但我没有找到一种方法来构建由所有图像组成的数据集,甚至没有找到如何将它们与 .txt 文件相关联并构建相关的训练、测试和验证数据集。有什么建议吗?请在下面找到 .txt 文件的结构作为示例:
2 PNEUMONIA/person888_bacteria_2812.jpeg
2 PNEUMONIA/person1209_bacteria_3161.jpeg
2 PNEUMONIA/person1718_bacteria_4540.jpeg
2 PNEUMONIA/person549_bacteria_2303.jpeg
2 PNEUMONIA/person831_bacteria_2742.jpeg
2 PNEUMONIA/person1571_bacteria_4108.jpeg
2 PNEUMONIA/person1310_bacteria_3300.jpeg
解决方案
是否有必要按照 txt 文件制作训练集和验证集?
如果没有,你可以
建立一个 train/ 目录 建立一个 train/covid 目录 建立一个 train/healthy 目录 建立一个 train/pneumonia 目录
将所有内容放在各自的目录中,然后将其中记录的总图像的一小部分随机移动到它们的验证目录中
否则,您应该阅读每个 txt 并选择特定文件并将其移动到目标文件夹。
推荐阅读
- html - 我的标签不适用于模板中的 if 语句
- azure-blob-storage - 删除旧的 azure blob
- angular - 基于独特系列/名称的 Highchart 传奇
- javascript - 在角度中使用样式时找不到scss文件
- java - 迭代一个数组直到提供的长度以及找到它覆盖的计数元素,如果它不止一次,则忽略相同的元素
- c++ - 使用 next_permutation c++ 使用 multimap
- python - 如何将 from_dict 提取到具有不同数组长度的 pandas 数据帧?
- java - 未能执行目标 org.fortasoft:gradle-maven-plugin
- php - 在 php (echo) 中编写多个 html 行
- vbscript - IIS 10 和自定义错误页面 - 执行两次