首页 > 解决方案 > Returnn 总机数据处理

问题描述

任何人都可以给我一些关于如何处理 Switchboard 数据集以使用 RETURNN 进行训练的指示吗?我确实看到了似乎是为交换机设计的 BlissDataset 类,但我不清楚我应该在示例中给出的路径中包含什么:

Example:
    ./tools/dump-dataset.py "
      {'class':'BlissDataset',
       'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
       'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
       'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"

交换机数据集有几个带有音频的文件夹,即 swb1_d2/data/*.sph 和成绩单 swb1_LDC97S62/swb_ms98_transcriptions/**/* 我不太确定如何继续进行此操作以获得可用于训练 RETURNN 的数据集。

标签: returnn

解决方案


在我们的小组(亚琛工业大学),我们使用发布在 GitHub 上的配置。如您所见,这个使用ExternSprintDataset. 该数据集使用 Sprint(公开称为 RWTH ASR (RASR),参见此处)作为外部工具(在子进程中运行)来处理数据(特征提取等)。Sprint 获得了一个 Bliss XML 文件,该文件描述了带有音频和音频偏移和转录路径的所有片段,并且它还获得了用于特征提取和其他内容的进一步配置。有一个开源版本的 RASR 应该可以工作,但要让它工作可能会有点麻烦。

BlissDataset计划成为一个更简单的替代品。然而,实施是不完整的。此外,您仍然需要以某种方式自己生成 Bliss XML(我们使用了一些自己的内部脚本来根据官方 LDC 数据进行准备)。

所以,不幸的是,还没有简单的方法。实际上,我认为最简单的方法是提出另一种自定义格式,它可能类似于LibriSpeechDataset实现,或者可能只是相同,然后你可以重用LibriSpeechDataset,或者至少是其中的一部分。该数据集实现采用某种 zip 格式的数据,其中包含 txt 文件中的成绩单和 ogg 或 wav 文件中的音频。它使用 librosa 进行 MFCC 特征提取(或其他特征类型)。我计划为 Switchboard 实现它,然后重现结果,但是我还没有时间,也不知道什么时候能实现。但是,如果您想自己尝试,我很乐意为您提供帮助。出发点是查看LibriSpeechDataset并了解其格式的外观。


推荐阅读