首页 > 解决方案 > 在研究论文中难以理解图像中的补丁数量

问题描述

我正在尝试了解有关阴影检测的论文(链接)。

第 3.4 节中,作者提到,给定一张图像,他们创建了一批训练实例,其中该批包括:-

  1. 原始图像调整为 256 × 256 像素。
  2. 补丁大小为原始图像的 3/4,以 20 的步幅提取,下采样到 256 × 256。
  3. 原始图像的 256 × 256 块,以 20 的步幅进行采样。

平均而言,他们每张图像获得 13 个训练实例/补丁。

如果我理解正确,他们已经使用了一个函数tf.extract_image_patches,其中 ksizes分别用于上述第 2 部分和第 3 部分,[1, 0.75*image_height, 0.75*image_width, 1]并且跨步为.[1, 256, 256, 1][1, 20, 20, 1]

ksizes我尝试使用提到的and运行上述函数strides,但我从训练数据中平均每张图像获得 267 个补丁。超过90%的图像分别有300height和300width以上。该论文使用了SBU Shadow Dataset链接)。

所以我不确定作者为什么声称每张图像平均只有 13 个补丁。

这里的任何帮助都将帮助我加快阅读和理解论文的速度。

提前致谢

标签: tensorflowcomputer-vision

解决方案


推荐阅读