machine-learning - 为语音转文本项目标记 detaset

问题描述

我们正在开发波斯语的语音到文本项目。我们是这个领域的新手，如果您能帮助我们，我们将不胜感激。

我们的目标是使用 MFCC 从音频数据集中提取特征，使用 CNN 模型估计每个特征的似然性，然后使用 HMM 模型将音频数据转换为文本。除了标签之外，所有这些步骤对我们来说都很清楚。当我们对数据进行预处理时，我们将音频数据分成更小的时间帧，每帧长约 45 毫秒，每帧之间有 10 毫秒的间隔。

我们对数据集的标签完全感到困惑。正如我们所发现的，我们需要将文本分成波斯语音素，并为每个音素分配自己的 ID。然后，我们需要标记每一帧并为每一帧（45ms）选择合适的音素ID。这种标注方式正确吗？音频数据到每一帧的划分是否应该与预处理步骤相同（45ms 长度，10ms 间隔）？你知道任何可以帮助我们标记的软件吗？

谢谢你的时间

标签： machine-learningdeep-learningspeech-to-texthidden-markov-modelslabeling

machine-learning - 为语音转文本项目标记 detaset

问题描述

解决方案

推荐阅读