首页 > 解决方案 > 将 GCS csv 压缩桶中的数据分批输入到 tensorflow 模型中

问题描述

我有一个存储在谷歌云存储桶中的训练数据(~500GB)。数据采用 csv 压缩文件格式,分布在不同的桶中。我想使用 tensorflow 的多工分布策略来训练我的 keras 功能模型。

我只能找到tf.data.experimental.make_csv_datasetapi 来读取 gcs 上的 csv 文件。但这对我不起作用。我得到以下错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 10: invalid start byte

此外,在输入模型之前,我必须对这些数据进行转换。我怎样才能实现这一切?

标签: pythontensorflowkerasbigdata

解决方案


推荐阅读