首页 > 解决方案 > 使用 librosa 和 Python 提取声音文件特征

问题描述

我想通过机器学习(分类和聚类)并通过相关性、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了 librosa 图书馆的 MFCC:

import librosa

y, sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y, sr=sr)

现在,m作为提取功能,我面临着多个问题:

  1. 与我的预期相反,MFCC 会返回二维数组,而不是上述分析方法通常需要的一维数组。我应该坚持这种方法,并尝试以某种方式将 2D 转换为 1D(展平阵列或平均行),还是存在更好的替代方案?

  2. MFCC 阵列的第 2 维具有自然不同的长音,因此会有所不同。我该怎么处理这个?截断/填充第二维以具有相同的数组?

标签: pythonmachine-learningvoicespeechlibrosa

解决方案


推荐阅读