首页 > 解决方案 > bpm 的图像表示要与频谱图进行比较

问题描述

免责声明:具有神经网络和音频表示的完整初学者。请多多包涵。

我的学士论文 (MIR) 有这个想法,它涉及应用类似节拍的基于时间的模式来约束基于 CNN 的声学模型在哪里找到起始点/偏移量。问题是我很难弄清楚如何实现这个概念。

最初的计划是将频谱图和模式都插入 CNN 并希望它处理它,但我不知道模式应该采用什么格式。我知道 CNN 最擅长处理图像,但说的初始格式模式是“基于时间的”(每分钟/秒的节拍数)。这个数字可以表示为要与频谱图进行比较的图像吗?如果有,采用什么格式?还是我应该以不同的方式处理这个问题?先感谢您!

标签: audioconv-neural-networksignal-processing

解决方案


推荐阅读