audio - bpm 的图像表示要与频谱图进行比较
问题描述
免责声明:具有神经网络和音频表示的完整初学者。请多多包涵。
我的学士论文 (MIR) 有这个想法,它涉及应用类似节拍的基于时间的模式来约束基于 CNN 的声学模型在哪里找到起始点/偏移量。问题是我很难弄清楚如何实现这个概念。
最初的计划是将频谱图和模式都插入 CNN 并希望它处理它,但我不知道模式应该采用什么格式。我知道 CNN 最擅长处理图像,但说的初始格式模式是“基于时间的”(每分钟/秒的节拍数)。这个数字可以表示为要与频谱图进行比较的图像吗?如果有,采用什么格式?还是我应该以不同的方式处理这个问题?先感谢您!
解决方案
推荐阅读
- python - 将基于列表值的多个python列表合并为一个
- javascript - JavaScript - Rhino Android 库 - 在 Android 代码中调用
- kubernetes - Google Cloud 上的持久卷 Kubernetes
- javascript - 如何使用 JavaScript 将 TextArea 文本旋转 180 度
- angular - Angular库中是否可以同时拥有内部和公共API
- reactjs - 反应:条件类名称未在 DOM 中更新
- javascript - 在 ReactJS 的 textarea 中添加行号
- python - Opencv HoughCircles 内存不足)无法在函数“cv::OutOfMemoryError”中为大图像分配内存
- react-native - numberOfLines 如何在反应原生 Text 组件中工作?
- python - 如何重新采样 csv 以便它可以与我的其他 csv 完美对齐