首页 > 解决方案 > 如何使用 TIMIT 数据集进行语音识别

问题描述

我们正在开发一个语音到文本的项目。我们是这个领域的新手,如果您能帮助我们,我们将不胜感激。

我们的目标是使用 MFCC 从音频数据集中提取特征,使用 CNN 模型估计每个特征的似然性,然后使用 HMM 模型将音频数据转换为文本。除了标签之外,所有这些步骤对我们来说都很清楚。当我们对数据进行预处理时,我们将音频数据分成更小的时间帧,每帧长约 45 毫秒,每帧之间有 10 毫秒的间隔。

我将使用 TIMIT 数据集。我对数据集的标签完全感到困惑。我检查了 TIMIT 数据集,发现标签文件有 3 列。第一个是 BEGIN_SAMPLE :== 段的开始整数样本号,第二个是段的结束整数样本号,最后一个是 PHONETIC_LABEL :== 单音标。我们如何使用这个标签?第一列和第二列重要吗?谢谢你的时间

标签: speech-recognitionlabeling

解决方案


推荐阅读