首页 > 解决方案 > 访问类似于指针的 HDF5 数据结构的 Pythonic 方式

问题描述

我有一个使用 HDF5 的项目。每个数据集都有文件结构和 HDF5 数据结构。

想想一个大视频。每个帧被平均划分并写入多个文件以及多个 HDF5 数据块。单个“视频”可能有 20 多个文件(代表时间和切片),然后有更多文件代表其他切片。数据集不是很大——不到 30gb——但仍然很麻烦。

我最初将这些片段关联(缝合)在一起的方法是将一组指向各个帧的指针放在一起,然后将它们堆叠起来以用于视频的时间方面。这将(相当)小,因为我将指向磁盘上所有内容的位置。当我扩展到“更大”的数据集时,这也将限制我必须保存在内存中的数据量 - 总是一个奖励。

然而,在 Python 中实现这一点的方法却让我望而却步——尤其是考虑到我想为每一帧(像素、它们的位置等)绑定元数据时。


有没有我应该遵循的方法来更好地参考数据并将其“缝合”在一起?我目前的方法是创建原始数据的 numpy 数组。这不利于读取所有数据并将其存储在内存(和磁盘)中。

标签: pythonhdf5

解决方案


推荐阅读