首页 > 解决方案 > 对 MFCC 处理感到困惑

问题描述

因此,我使用 Python 中的 Librosa 库提取了带有 MFCC 的音频文件功能。这是代码的样子:

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是,为什么我们必须转置并获得 MFCC 的平均值?

标签: pythonaudiofeature-extractionlibrosamfcc

解决方案


取转置 MFCC 的平均值显示 mel 系数随时间的平均能量。这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

例如,下图(a)显示了一些噪声的 21 阶梅尔谱,(b)显示了每个时间帧的平均能量。这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。 在此处输入图像描述

如评论中所述,这不是强制性的,这完全取决于您的情况。

该图取自以下出版物。

毕崇光等。“Familylog:用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。IEEE,2017。


推荐阅读