machine-learning - 为语音转文本项目标记 detaset
问题描述
我们正在开发波斯语的语音到文本项目。我们是这个领域的新手,如果您能帮助我们,我们将不胜感激。
我们的目标是使用 MFCC 从音频数据集中提取特征,使用 CNN 模型估计每个特征的似然性,然后使用 HMM 模型将音频数据转换为文本。除了标签之外,所有这些步骤对我们来说都很清楚。当我们对数据进行预处理时,我们将音频数据分成更小的时间帧,每帧长约 45 毫秒,每帧之间有 10 毫秒的间隔。
我们对数据集的标签完全感到困惑。正如我们所发现的,我们需要将文本分成波斯语音素,并为每个音素分配自己的 ID。然后,我们需要标记每一帧并为每一帧(45ms)选择合适的音素ID。这种标注方式正确吗?音频数据到每一帧的划分是否应该与预处理步骤相同(45ms 长度,10ms 间隔)?你知道任何可以帮助我们标记的软件吗?
谢谢你的时间
解决方案
推荐阅读
- sql - 如何通过替换各种文本的字符串来更新 sql 记录文本?
- google-bigquery - 使用 Big Query 将 firebase event_params 键值数据显示到单行中
- wpf - WPF中从中心点到特定点的路径,ArcSegment计算
- java - 错误:在 PI 上运行 Arduino IDE 时,线程“main”java.lang.NullPointerException 出现异常
- json - PowerShell - 遍历 JSON
- javascript - NVD3 工具提示更改事件
- php - Symfony 注入一个字符串而不是服务
- java - 内部类的 NPE
- c# - Moq 在使用 It.Is 但不是 It.IsAny 进行验证时抛出 NullReferenceException
- python - 如何检查列表中的连续时间戳