python - 在视频分类问题中找到具有最大“权重”的帧

问题描述

我正在开始一个项目，任务是识别人脸中的微表情。然而，我制定的第一个任务是在 10 秒的视频中获取与预测表达最相关的关键帧。例如，扬起眉毛可能代表惊讶，但扬眉动作可能只发生在 10 帧中，而这 10 帧代表惊讶的微表情。您可以指导我阅读的任何指南或研究论文都会很有帮助。我计划使用某种形式的 3D-CNN，但我也欢迎使用更有效的方法来做到这一点，因为 3D CNN 的计算成本非常高。

标签： pythondeep-learningcomputer-visionconv-neural-network

这将属于“动作识别”。我认为它应该能够满足您的要求。您不需要找到关键帧。

Torch-vision 有一些预训练的模型，您可以直接在 pytorch 中使用它们，或者您可以使用非常少的数据对其进行微调。在此链接中查找“视频分类”模型。

我建议去 R(2+1)D （论文链接）

它能够识别运动动作、手势动作和手语。

python - 在视频分类问题中找到具有最大“权重”的帧

问题描述

解决方案

推荐阅读