首页 > 解决方案 > 作为 LSTM 单元的音频帧数

问题描述

我的语音情感识别 LSTM 模型包含形状为:(4232, 400, 15) 的音频输入,即 4232 个音频文件,每个音频有 400 帧(序列数据),每帧在其之上包含 15 个特征。

LSTM / RNN 模型为序列的每个输入构建了一个单元格,因此当每个输入包含 400 帧时,这样做似乎非常合乎逻辑:

model = Sequential()
model.add(LSTM(400))

换句话说,LSTM(输入)单元的数量是由单元的数量决定的吗?

标签: pythonkerasaudiodeep-learninglstm

解决方案


推荐阅读