tensorflow - 用于大型 HDF5 文件的 TensorFlow 数据集管道

假设我有 1000 万个训练样本存储在 HDF5 文件中，我想使用 TensorFlow 数据集生成大小为 1000 的批次。但是，这 1000 万个样本太大而无法加载到内存中。

我想要做的是一次从内存中加载 100 万个 HDF5 中的 numpy 数据，然后迭代生成我的大小为 1000 的批次。当 100 万个样本完成后，我想从HDF5 并继续。我想用 tensorflow 中的单个数据集来管理这个。

但是，我看不到如何使用 tensorflow 中的 Dataset API 执行此操作。

我如何在这样的两个级别上进行迭代（第一级 = 100 万个大块，第二级 = 1000 个小批量）。

谢谢

标签： tensorflowdataset