首页 > 解决方案 > 如何在 h5py 中为不同的数据集设置不同的缓存大小?

问题描述

我目前正在研究 ML 问题,并且我有一个包含 2 个数据集的 h5 文件。一个是我的训练数据(一个形状为 (length, h, w) 的数据集),一个是元数据。那是形状(长度,)的json字符串的np.array。

我遇到的问题是 h5py.File 为所有数据集创建了一个缓存大小。因此,尽管我的元数据不需要像我的实际数据那样多的缓存(它大约是 2GB,而我的数据大约是 60GB),但如果我声明一个缓存机制,它将以与缓存更重要的数据。

因此,如果我为每个数据集声明一个 4GB 缓存,我将缓存大约 0.17 个数据集和 100% 的元数据,这将消耗大约 6GB 的内存。有没有办法为我的元数据数据集使用不同的缓存大小?

标签: pythoncachinghdf5h5py

解决方案


推荐阅读