python - 用于翻译的 TensorFlow 数据集 - 如何使用 WMT14 手动下载?
问题描述
我在这里遵循指南:https ://www.tensorflow.org/datasets/catalog/wmt14_translate ,但我在尝试下载数据集时遇到了问题,基本上它需要很长时间才能下载。关于TF指南中提到的“手动下载”,是否意味着我必须从链接中手动下载它,并将它们放在我本地的tensorflow_datasets文件夹中?根据代码输出,看起来它无论如何都在尝试下载数据。
我的代码:
import tensorflow as tf
datasets, metadata = tfds.load('wmt14_translate/de-en', with_info=True,
as_supervised=True)
print(metadata)
train_examples, val_examples, test_examples = datasets['train'], datasets['validation'], datasets['test']
解决方案
是的,下载确实需要很长时间,因为即使数据集很大(大约 1.5 Gb)。不,您不需要手动下载数据,只需等待代码运行即可。
PS就我而言,我必须运行
dataset = tfds.load('wmt14_translate/de-en', split='test',shuffle_files=True)
再次单元格以获取所有示例dataset
(第二次运行不需要任何时间),否则在第一次运行之后,我只得到一个平行的句子对,我知道为什么。
推荐阅读
- json - 解析 Future Builder 时出错:TypeError: Cannot read property 'Symbol(dartx._get)' of null
- influxdb - 如何设置 InfluxDB 自定义测量名称当我将 Fluent-bit Tail 插件与 Kubernetes 过滤器一起使用时
- airflow - 气流后台任务
- javascript - 我正在使用以下代码创建客户滑块,但它不起作用需要解决方案
- ruby-on-rails - 延迟作业队列、优先级、工人
- android - 我想将我的 android 应用程序中的录音文件(或文件)发送给 Skype 用户。无法发送文件(目标 sdk 版本为 30)
- java - 带有文本的二维数组的打印格式
- python - Numpy:将可对角化方阵提高到无限次幂
- php - 在woocomerce订单中使用优惠券时不要更改正常价格
- database - 哪些数据库文档仅通过键搜索更优化?MongoDB 还是 Couchbase?为什么?