speech-recognition - 如何使用 TIMIT 数据集进行语音识别
问题描述
我们正在开发一个语音到文本的项目。我们是这个领域的新手,如果您能帮助我们,我们将不胜感激。
我们的目标是使用 MFCC 从音频数据集中提取特征,使用 CNN 模型估计每个特征的似然性,然后使用 HMM 模型将音频数据转换为文本。除了标签之外,所有这些步骤对我们来说都很清楚。当我们对数据进行预处理时,我们将音频数据分成更小的时间帧,每帧长约 45 毫秒,每帧之间有 10 毫秒的间隔。
我将使用 TIMIT 数据集。我对数据集的标签完全感到困惑。我检查了 TIMIT 数据集,发现标签文件有 3 列。第一个是 BEGIN_SAMPLE :== 段的开始整数样本号,第二个是段的结束整数样本号,最后一个是 PHONETIC_LABEL :== 单音标。我们如何使用这个标签?第一列和第二列重要吗?谢谢你的时间
解决方案
推荐阅读
- javascript - 'this' 在回调上下文中未定义
- php - PHP - 无法访问此站点 ERR_EMPTY_RESPONSE
- python - 权限通知电子邮件不适用于服务帐户
- amazon-web-services - 如何使用 SAM 调试创建 Cognito PostConfirmation 触发器
- python - Python如何用patch.object修补整个对象
- bash - 如何在 bash 命令中打破 jq 中的长字符串?
- html - 在html页面中水平对齐表格的元素
- cross-domain - XMLHTTPRequest - 不能对响应做任何事情
- html - Material Icons 如何根据元素的内容设置图标?
- python - 如何防止某些特定键在 Python 中“发送”输入