首页 > 解决方案 > 在视频分类问题中找到具有最大“权重”的帧

问题描述

我正在开始一个项目,任务是识别人脸中的微表情。然而,我制定的第一个任务是在 10 秒的视频中获取与预测表达最相关的关键帧。例如,扬起眉毛可能代表惊讶,但扬眉动作可能只发生在 10 帧中,而这 10 帧代表惊讶的微表情。您可以指导我阅读的任何指南或研究论文都会很有帮助。我计划使用某种形式的 3D-CNN,但我也欢迎使用更有效的方法来做到这一点,因为 3D CNN 的计算成本非常高。

标签: pythondeep-learningcomputer-visionconv-neural-network

解决方案


这将属于“动作识别”。我认为它应该能够满足您的要求。您不需要找到关键帧。

Torch-vision 有一些预训练的模型,您可以直接在 pytorch 中使用它们,或者您可以使用非常少的数据对其进行微调。在此链接中查找“视频分类”模型。

我建议去 R(2+1)D (论文链接

它能够识别运动动作、手势动作和手语。


推荐阅读