首页 > 解决方案 > 如何在 google-colab 中使用 Librispeech 360h 数据集?

问题描述

我正在使用 Google colab(启用 GPU)来训练我的 ASR 模型。使用 train-clean-100 Librispeech 数据集的模型的准确性不是很好,所以我决定使用以下方式下载train-clean-360 数据集torchaudio.datasets.LIBRISPEECH("./data", url='train-clean-360', download=True) 但我无法下载它,因为 google-colab 中可用的磁盘存储空间为 36GB

我尝试在我的 google-drive 帐户中上传和解压缩train-clean-360 数据集并将其挂载到 google-colab,这样我就可以使用该数据集而无需通过以下代码下载它:

torchaudio.datasets.LIBRISPEECH("/content/gdrive/My Drive/", url="train-clean-360", folder_in_archive="LibriSpeech", download=False)

但它不起作用。

难道我做错了什么?有没有其他方法可以在 google-colab 中使用这个数据集?

标签: pythondatasetpytorchtraining-data

解决方案


推荐阅读