python - 使用 librosa 和 Python 提取声音文件特征
问题描述
我想通过机器学习(分类和聚类)并通过相关性、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了 librosa 图书馆的 MFCC:
import librosa
y, sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y, sr=sr)
现在,m
作为提取功能,我面临着多个问题:
与我的预期相反,MFCC 会返回二维数组,而不是上述分析方法通常需要的一维数组。我应该坚持这种方法,并尝试以某种方式将 2D 转换为 1D(展平阵列或平均行),还是存在更好的替代方案?
MFCC 阵列的第 2 维具有自然不同的长音,因此会有所不同。我该怎么处理这个?截断/填充第二维以具有相同的数组?
解决方案
推荐阅读
- reactjs - Reactjs 子组件
- jekyll - 可以同时在具有两个不同端口的两个不同目录上运行 jekyll serve --livereload 吗?
- language-agnostic - 描述如何在非等宽文本中处理导航的标准?
- email - Jenkins:使用 emailext 时,如何包含来自 Mercurial 的提交消息/描述?
- python - fastapi - 从 main.py 导入配置
- python - 从 Amazon Ion 文件中提取“数据”
- functional-programming - 从 sml 中的整数对列表中返回偶数列表
- linq - 列表中不存在的asp.net核心sql
- swift - 不支持在 WKWebView 中加载 Twitter
- javascript - 为过期会话创建 redux 中间件重试功能