python - 如何将提取的音高值保存在 csv 文件中?
问题描述
好吧,我想我应该提一下,这是我第一次在 Python 中尝试音频信号处理。我有一个音频数据集,我正在使用 Aubio 库提取音高特征,并使用 Python 中的 python_speech_features 库提取 MFCC 特征。问题是,对于单个音频文件,我得到了大约 84 个音高值向量和 12 个 MFCC 值特征向量。
那么如何将这么多的值保存在一个 csv 文件中呢?我将大约 700 个音频文件分隔在不同的目录中,以表达情感。我应该取所有这些值的平均值并将它们保存在 csv 中的音频文件中吗?像这样:
另外,我将如何使用这些值进行分类呢?任何帮助将不胜感激,谢谢。
解决方案
你的问题没有一个简单的答案。
我知道对于每个数据样本,您都提取一组特征,每个样本都相同,不是吗?我想你在一个for
循环中工作,像这样:
import numpy as np
all_features = []
for path in path_list:
x = open_file(path) #an hypothetical function to open your files
features = extract_features(x) #an hypothetical function to extract features
all_features.append(features)
如果您的代码看起来像我的简单示例,则您创建了一个列表all_features
,其元素all_features[i]
包含从示例中提取的特征i
。另外我想你提取features
的是一个numpy
向量。如果不是,则应将其转换为numpy
向量(类似于features = np.array(features)
)。
好的,现在您已准备好创建数据集:
data = np.vstack(all_features)
垂直堆栈np.vstack
生成一个 shape 矩阵(n_samples, n_features)
。警告:所有特征向量必须具有相同的形状!
现在您要保存数据集,有很多可能性,这是我最喜欢的三个选项:1)pandas
用于创建csv
文件:
import pandas as pd
df = pd.DataFrame(data)
df.to_csv(filename+'.csv', index=False, header=header) #header is a list of string to name columns of csv
#see https://pandas.pydata.org/pandasdocs/stable/generated/pandas.DataFrame.to_csv.html
2)将内存转储到pickle文件中:
import six.moves.cPickle as pickle
with open(filename+'.pkl', 'wb') as f:
pickle.dump(data, f)
3)保存为numpy文件:
np.save(filename+'.npy', data)
关于分类问题,如果您想使用监督方法(MLP、RF、SVM、KNN,...),您需要一个类标签(基本事实),即形状等于相关样本数量的向量每个样本为一个整数(例如二进制分类中的 0,1,或 4 类分类中的 0,1,2,3)。这很大程度上取决于你想要什么,你的训练目标是什么。
一旦你有了数据矩阵和标签向量,如果你有足够的样本,每种机器学习方法都可以进行分类。为了这个目的,我建议你使用相同的扩充标准,有一个想法看看这篇论文,它可以给你同样的想法。
希望对你有帮助,辛苦了!
推荐阅读
- mocking - PHPUnit 9.5.2 中的方法模拟
- javascript - 由于 ngModel,在 Angular 中选择了两个单选按钮
- python - 使用元数据在计算机上搜索 mp3/mp4 - tinytag python
- c# - 属性中的 nameof 产生空字符串
- dependencies - 在 RedHat 7.6 依赖项错误中安装 RSVG
- typescript - 如何使用`typeof`获取泛型函数的类型?
- flutter - ReorderableListView - 更改列表中的项目顺序后数据不刷新(我正在使用GetX)
- python - send() 接受 1 到 2 个位置参数,但给出了 3 个 (discord.py)
- postgresql - PostgreSQL:这个查询可以更短吗?
- reactjs - 如何获得泛型函数的返回类型?