首页 > 解决方案 > 将矩阵转换为时空特征向量

问题描述

给定一个表示视频的矩阵,其中行表示视频帧,列表示帧特征,是否有任何技术可以用来从中创建单个特征向量而不会丢失矩阵中的时空信息?即 40 个具有 36 个特征的帧向量,每个向量转换为 1 个具有 36 个特征的向量,代表整个 40 个帧。

我已经尝试为每个功能取平均值,但我想知道其他技术。

标签: pythonmachine-learning

解决方案


我没有视频数据方面的经验。但我有一种感觉,您的问题与文本摘要问题相同/或非常相似。原则上,你想要的是将所有不同的时间框架“总结”成一个框架。这很像你在一篇文章中有很多句子,但你只想有一个句子可以概括一篇文章中的所有句子。

一般有两种方法:

1. 提取方法::评估每一帧的重要性,对不同的帧赋予权重。然后简单地使用线性组合来得到一个汇总向量。在极端情况下,如果其权重远大于其他帧,则可以仅将主导帧用作代表帧。这种方法与 NLP 中的 TextRank 或 TextTeasing 算法非常相似。

2. 抽象方法:在 NLP 的情况下,您需要一些语言学家和句子语义结构的知识才能开发这种方法。在你的情况下,我相信你需要对你的视频数据做同样的事情。


推荐阅读