returnn - Returnn 总机数据处理
问题描述
任何人都可以给我一些关于如何处理 Switchboard 数据集以使用 RETURNN 进行训练的指示吗?我确实看到了似乎是为交换机设计的 BlissDataset 类,但我不清楚我应该在示例中给出的路径中包含什么:
Example:
./tools/dump-dataset.py "
{'class':'BlissDataset',
'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"
交换机数据集有几个带有音频的文件夹,即 swb1_d2/data/*.sph 和成绩单 swb1_LDC97S62/swb_ms98_transcriptions/**/* 我不太确定如何继续进行此操作以获得可用于训练 RETURNN 的数据集。
解决方案
在我们的小组(亚琛工业大学),我们使用发布在 GitHub 上的配置。如您所见,这个使用ExternSprintDataset
. 该数据集使用 Sprint(公开称为 RWTH ASR (RASR),参见此处)作为外部工具(在子进程中运行)来处理数据(特征提取等)。Sprint 获得了一个 Bliss XML 文件,该文件描述了带有音频和音频偏移和转录路径的所有片段,并且它还获得了用于特征提取和其他内容的进一步配置。有一个开源版本的 RASR 应该可以工作,但要让它工作可能会有点麻烦。
BlissDataset
计划成为一个更简单的替代品。然而,实施是不完整的。此外,您仍然需要以某种方式自己生成 Bliss XML(我们使用了一些自己的内部脚本来根据官方 LDC 数据进行准备)。
所以,不幸的是,还没有简单的方法。实际上,我认为最简单的方法是提出另一种自定义格式,它可能类似于LibriSpeechDataset
实现,或者可能只是相同,然后你可以重用LibriSpeechDataset
,或者至少是其中的一部分。该数据集实现采用某种 zip 格式的数据,其中包含 txt 文件中的成绩单和 ogg 或 wav 文件中的音频。它使用 librosa 进行 MFCC 特征提取(或其他特征类型)。我计划为 Switchboard 实现它,然后重现结果,但是我还没有时间,也不知道什么时候能实现。但是,如果您想自己尝试,我很乐意为您提供帮助。出发点是查看LibriSpeechDataset
并了解其格式的外观。
推荐阅读
- debian - 子进程 DPKG 似乎坏了。我该如何纠正?
- javascript - 将图像从浏览器窗口拖动到文件输入
- bash - bash 陷阱通过自定义信号处理程序传播到命令
- python - 如何向熊猫数据框添加列级别
- javascript - 从Vue js中发出的子组件方法中更改父属性
- python - 如何在 Python 中按字符分组?
- node.js - sequelize-cli db:migrate 不生成关联表
- oracle - 循环通过 Sys_Refcursor:在光标和 INTO 变量之间发现类型不匹配
- asp.net-core - ASP.NET Core:在子类型中定义的字段上忽略验证属性
- angular - 如何将所有属性从 Angular 组件传递到模板