python - MFCC 为解析 wav 文件生成“ValueError:索引不能包含负值”
问题描述
关于使用通用代码提取缩放的 MFCC 数据:
def extract_features(文件名):
try:
audio, sample_rate = librosa.load(file_name, res_type='kaiser_fast')
mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
mfccsscaled = np.mean(mfccs.T,axis=0)
except Exception as e:
print("Error encountered while parsing file: ", file)
return None
return mfccsscaled
用于单个文件的示例代码:
max_pad_len = 174
file_name = '201-AWCKARAK47Close0116BIT.wav'
audio, sample_rate = librosa.load(file_name, res_type='kaiser_fast', sr=None)
mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
pad_width = max_pad_len - mfccs.shape[1]
mfccs = np.pad(mfccs, pad_width=((0, 0), (0, pad_width)), mode='constant')
mfccsscaled
我收到以下错误:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-26-118328675a5f> in <module>
4 mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
5 pad_width = max_pad_len - mfccs.shape[1]
----> 6 mfccs = np.pad(mfccs, pad_width=((0, 0), (0, pad_width)), mode='constant')
7 mfccsscaled
<__array_function__ internals> in pad(*args, **kwargs)
c:\python\lib\site-packages\numpy\lib\arraypad.py in pad(array, pad_width, mode, **kwargs)
746
747 # Broadcast to shape (array.ndim, 2)
--> 748 pad_width = _as_pairs(pad_width, array.ndim, as_index=True)
749
750 if callable(mode):
c:\python\lib\site-packages\numpy\lib\arraypad.py in _as_pairs(x, ndim, as_index)
517
518 if as_index and x.min() < 0:
--> 519 raise ValueError("index can't contain negative values")
520
521 # Converting the array with `tolist` seems to improve performance
ValueError: index can't contain negative values
你能告诉我为什么会抛出这个错误以及如何解决它吗?
背景
我使用从https://www.boomlibrary.com/获得的文件。大多数文件都是 24 位深度的。我尝试对原始 wav 文件进行下采样(到 16 位)和上采样(到 32 位)。即使通过 librosa 传递这两个文件,min~max 数据也不符合 [-1,1]。我明白了Librosa audio file min~max range: -1.2105241 to 1.2942984
。不确定这些数据是否有助于解决我的问题。谢谢!
解决方案
如异常所示,您正在使用负值填充。
问题源于这一行:
pad_width = max_pad_len - mfccs.shape[1]
与mfccs.shape[1]
音频长度成正比,并取决于用于计算mfcc
. 默认情况下hop_length
为 512。
有问题的音频是201-AWCKARAK47Close0116BIT.wav
一个以 96kHz 采样的大约 45 秒长的剪辑。信封计算的背面告诉我们,您将为该音频文件获得的 MFCC 数量为:
45 second * (96000 samples / second) / 512 samples ~ 8500
反过来:
pad_width = max_pad_len - mfccs.shape[1] = 174 - 8500 => NEGATIVE NUMBER
推荐阅读
- sql - Hive collect_set() 但要删除连续重复
- python - 如何使用 python selenium 识别这些按钮?
- python - 如何创建彩虹三角形镶嵌
- visual-studio-code - 当连接到远程工作区时,为什么 localhost 在我的 VS Code 的 web 视图中不起作用?
- javascript - 顺序异步函数
- python - AttributeError:“图像”对象没有属性“getPixel”
- java - 如何在 Android 上识别复合表情符号?
- docker - Traefik 使用 traefik.enable=true 设置忽略 docker
- couchdb - 在 Cloudant 中增加文档大小
- reactjs - React:当焦点子组件卸载时如何捕获焦点