首页 > 解决方案 > 一旦 Apache Beam 支持 Python 3,tf.data 是否会集成到 tf.Transform 中?

问题描述

阅读有关 TFX、Kubeflow、Beam、Flink 和源源不断的 Apache 项目的信息,我越来越感到困惑。我很好奇 TensorFlow 团队打算将什么推广到用于训练 Keras 模型的规范 ETL API。

我目前对 in 的tf.data支持感到非常满意,tf.keras但非常缺少两件事:

  1. 用于标准化特征/目标的数据集缩减。
  2. 具有持久的每个元素缓存的完整数据集改组(例如,相当于使用 NumPy memmap 进行索引排列)。

我的预感是tf.data存在的,因为tf.Transform 仅适用于 Python 2。一旦最终确定,未来会tf.data怎样?它会被集成到tf.Transform其中还是相反?最终将tf.data获得上述功能,而与 Apache Beam 的状态无关?

TL;DR:什么是用于训练 Keras 模型的规范 ETL API?TensorFlower 能否阐明 TensorFlow 生态系统的计划以及它们应该如何结合在一起?

PS:这一切在tensorflow_io哪里?tensorflow_datasets他们似乎做了很多重新发明轮子而不是依赖tf.Transform.

标签: pythontensorflowkerastensorflow-datasetstensorflow-transform

解决方案


推荐阅读