python - 将 GCS csv 压缩桶中的数据分批输入到 tensorflow 模型中

我有一个存储在谷歌云存储桶中的训练数据（~500GB）。数据采用 csv 压缩文件格式，分布在不同的桶中。我想使用 tensorflow 的多工分布策略来训练我的 keras 功能模型。

我只能找到tf.data.experimental.make_csv_datasetapi 来读取 gcs 上的 csv 文件。但这对我不起作用。我得到以下错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 10: invalid start byte

此外，在输入模型之前，我必须对这些数据进行转换。我怎样才能实现这一切？

标签： pythontensorflowkerasbigdata