python - 如何从拥抱脸 load_dataset 加载一定百分比的数据
问题描述
我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 中的空间有限,我无法下载/加载数据集,即笔记本崩溃。
所以我做了一些研究,发现split
我们可以在load_dataset
函数中传递下载部分数据集的论点,但它仍然是在笔记本上下载整个 30GB 数据集。论据split
不成立...
from datasets import load_dataset
dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])
我试图只加载 50% 的“train.360”数据,但我无法这样做。
什么是正确的方法,我做错了什么?
解决方案
推荐阅读
- google-apps-script - 使用 Google Script 和 People API 指定来源会覆盖同步令牌
- python - 为什么只循环访问第一行?
- visual-studio-code - 有没有办法像 Visual Studio 过去那样使用“在文件中查找”?
- c# - 无法更新 userinfo TenantToken 或 userToken 超时值
- c# - Newtonsoft JSON 转换器序列化:在 writeJson() 中,如何修改值并避免递归到自身?
- sql-server - 如何在 SQL Server 中使用实体框架代码优先迁移更新 NVARCHAR(MAX) 列?
- javascript - HTML 视频标签正在暂停某些 mp4 的播放
- google-cloud-platform - 如何获取 google-cloud-ops-agent 日志记录以识别特殊的“严重性”字段
- function - 我如何使用这些功能来为比赛打分?
- sql - 检查 SQL Server 表之间的数据等价性