首页 > 解决方案 > 如何从拥抱脸 load_dataset 加载一定百分比的数据

问题描述

我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 中的空间有限,我无法下载/加载数据集,即笔记本崩溃。

所以我做了一些研究,发现split我们可以在load_dataset函数中传递下载部分数据集的论点,但它仍然是在笔记本上下载整个 30GB 数据集。论据split不成立...

from datasets import load_dataset

dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])

我试图只加载 50% 的“train.360”数据,但我无法这样做。

什么是正确的方法,我做错了什么?

标签: pythonnlpspeech-recognitionhuggingface-transformershuggingface-datasets

解决方案


推荐阅读