首页 > 解决方案 > 用于翻译的 TensorFlow 数据集 - 如何使用 WMT14 手动下载?

问题描述

我在这里遵循指南:https ://www.tensorflow.org/datasets/catalog/wmt14_translate ,但我在尝试下载数据集时遇到了问题,基本上它需要很长时间才能下载。关于TF指南中提到的“手动下载”,是否意味着我必须从链接中手动下载它,并将它们放在我本地的tensorflow_datasets文件夹中?根据代码输出,看起来它无论如何都在尝试下载数据。

我的代码:

import tensorflow as tf

datasets, metadata = tfds.load('wmt14_translate/de-en', with_info=True,
                               as_supervised=True)
print(metadata)
train_examples, val_examples, test_examples = datasets['train'], datasets['validation'], datasets['test']

标签: pythontensorflowtranslationtensorflow-datasets

解决方案


是的,下载确实需要很长时间,因为即使数据集很大(大约 1.5 Gb)。不,您不需要手动下载数据,只需等待代码运行即可。

PS就我而言,我必须运行

dataset = tfds.load('wmt14_translate/de-en', split='test',shuffle_files=True)

再次单元格以获取所有示例dataset(第二次运行不需要任何时间),否则在第一次运行之后,我只得到一个平行的句子对,我知道为什么。


推荐阅读