python - 对 MFCC 处理感到困惑

问题描述

因此，我使用 Python 中的 Librosa 库提取了带有 MFCC 的音频文件功能。这是代码的样子：

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是，为什么我们必须转置并获得 MFCC 的平均值？

标签： pythonaudiofeature-extractionlibrosamfcc

取转置 MFCC 的平均值显示 mel 系数随时间的平均能量。这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

例如，下图（a）显示了一些噪声的 21 阶梅尔谱，（b）显示了每个时间帧的平均能量。这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。

如评论中所述，这不是强制性的，这完全取决于您的情况。

该图取自以下出版物。

毕崇光等。“Familylog：用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。IEEE，2017。

python - 对 MFCC 处理感到困惑

问题描述

解决方案

推荐阅读