首页 > 解决方案 > 如何在 python 中为音频应用以下频谱环绕增强?

问题描述

在此处输入图像描述

频谱图(x 轴是时间,y 轴是频率)的这种变换的感觉是根据不同的 alpha 值沿 y 轴拉伸它,而顶部(最大频率)和底部(零频率)保持不动。但现在我真的不知道如何实现它。

首先,我应该在哪一步进行频率扭曲?我正在使用 Librosa 来提取特征并将音频转换为 log-mel 频谱图。这应该在转换为 melspectrogram 之前还是在 STFT 之前/之后完成?

其次,我可以通过哪种方式根据公式映射每个频率?作者提到他们使用了 OpenCV 的 Geometric Image Transformations,但我只找到了看起来相关的 Affine Transformation 和 Perspective Transformation,但我没有设法通过使用它们来实现这种映射。

欢迎任何建议和评论,非常感谢!

标签: pythonaudio-processinglibrosaspectrogramdata-augmentation

解决方案


推荐阅读