python - 将 GCS csv 压缩桶中的数据分批输入到 tensorflow 模型中
问题描述
我有一个存储在谷歌云存储桶中的训练数据(~500GB)。数据采用 csv 压缩文件格式,分布在不同的桶中。我想使用 tensorflow 的多工分布策略来训练我的 keras 功能模型。
我只能找到tf.data.experimental.make_csv_dataset
api 来读取 gcs 上的 csv 文件。但这对我不起作用。我得到以下错误
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 10: invalid start byte
此外,在输入模型之前,我必须对这些数据进行转换。我怎样才能实现这一切?
解决方案
推荐阅读
- python - 一个txt文件的分离?
- sql - SSRS 通过在矩阵中的文本框的背景颜色中着色来创建热图
- html - 视口元标记在 html 中到底有什么作用?
- python - 无法垂直旋转 3D 相机,而是转换图像
- javascript - 使用变量作为 JavaScript 选择器 ID
- graphql - 将 Hasura 用作数据访问层的最佳和正确方法是什么
- kamailio - OpenSIPs 控制面板错误
- c++ - 在 C 中生成“pieslice”而不使用 graphics.h 的 pieslice()
- scala - 为什么编译器出错但在 Spark-shell 上运行?
- angular - 获取“服务命令需要在 Angular 项目中运行,但找不到项目定义”运行 Docker Compose