首页 > 解决方案 > 视频地面实况的最佳实践?

问题描述

我想训练一个深度学习框架 (TensorFlow) 以使用新的对象类别进行对象检测。

作为地面实况的来源,我有多个包含对象的视频文件(只有部分图像包含对象)。

我应该如何为视频提供基础?即使这些视频帧非常相似,我是否应该逐帧提取并标记每一帧?或者这样的任务的最佳实践是什么?

开源工具是首选。

标签: tensorflowimage-processingdeep-learningobject-detectionvideo-processing

解决方案


它通常像你描述的那样工作。至少对于迭代零

  1. 收集所需示例(视频)
  2. 从视频中提取有价值的帧(手动或部分自动化过程)
  3. 使用 OpenCV(或任何其他工具)提取所需的细节(边界框、准确的蒙版)
  4. 组装训练集
  5. 训练一个模型

这是由上述方法生成的训练集示例(请参阅实际操作

在此处输入图像描述

对于第一次迭代,您可以使用迭代零模型并显着改进第 2 步和第 3 步以进一步增加训练集。

我正在尝试解决几乎相同的问题,因为很难生成训练集来获得准确的分割:

在此处输入图像描述

(同样,这是在行动其他例子

基本上,从半手动方法开始并尝试发展。


推荐阅读