首页 > 解决方案 > 为语音转文本项目标记 detaset

问题描述

我们正在开发波斯语的语音到文本项目。我们是这个领域的新手,如果您能帮助我们,我们将不胜感激。

我们的目标是使用 MFCC 从音频数据集中提取特征,使用 CNN 模型估计每个特征的似然性,然后使用 HMM 模型将音频数据转换为文本。除了标签之外,所有这些步骤对我们来说都很清楚。当我们对数据进行预处理时,我们将音频数据分成更小的时间帧,每帧长约 45 毫秒,每帧之间有 10 毫秒的间隔。

我们对数据集的标签完全感到困惑。正如我们所发现的,我们需要将文本分成波斯语音素,并为每个音素分配自己的 ID。然后,我们需要标记每一帧并为每一帧(45ms)选择合适的音素ID。这种标注方式正确吗?音频数据到每一帧的划分是否应该与预处理步骤相同(45ms 长度,10ms 间隔)?你知道任何可以帮助我们标记的软件吗?

谢谢你的时间

标签: machine-learningdeep-learningspeech-to-texthidden-markov-modelslabeling

解决方案


推荐阅读