tensorflow - 用于大型 HDF5 文件的 TensorFlow 数据集管道
问题描述
假设我有 1000 万个训练样本存储在 HDF5 文件中,我想使用 TensorFlow 数据集生成大小为 1000 的批次。但是,这 1000 万个样本太大而无法加载到内存中。
我想要做的是一次从内存中加载 100 万个 HDF5 中的 numpy 数据,然后迭代生成我的大小为 1000 的批次。当 100 万个样本完成后,我想从HDF5 并继续。我想用 tensorflow 中的单个数据集来管理这个。
但是,我看不到如何使用 tensorflow 中的 Dataset API 执行此操作。
我如何在这样的两个级别上进行迭代(第一级 = 100 万个大块,第二级 = 1000 个小批量)。
谢谢
解决方案
推荐阅读
- safari - Safari 上的 IndexedDB 是否保证是持久的?
- twilio - Twilio 字母数字发件人 ID
- node.js - Dialogflow V2 错误 - 异步调用不起作用 - 承诺错误?火力基地功能
- machine-learning - 谷歌云工作提交培训卡住了
- javascript - 将数组从 php 存储到 html 输入元素中
- javascript - 如何将 li 中的内容附加到表单 inout 值 javascript
- performancecounter - 为什么系统正常运行时间的性能计数器需要 2 次调用 NextValue?
- odoo - odoo 10 中的“base_geoengine”模块安装错误
- qt - 简单的 QThread 示例无法正确链接
- amazon-web-services - AWS 云形成堆栈中角色的托管策略