python - 使用属性从 H5 文件中过滤 HDF 数据集
问题描述
我有一个包含多个组和数据集的 h5 文件。每个数据集都有关联的属性。我想根据与之关联的相应属性查找/过滤此 h5 文件中的数据集。
例子:
dataset1 =cloudy(attribute)
dataset2 =rainy(attribute)
dataset3 =cloudy(attribute)
我想找到具有weather
属性/元数据的数据集cloudy
以pythonic方式完成这项工作的最简单方法是什么。
解决方案
有两种使用 Python 访问 HDF5 数据的方法:h5py和pytables。两者都很好,具有不同的功能:
- h5py(来自 h5py FAQ):尝试将 HDF5 功能集尽可能接近地映射到 NumPy。有人说这使 h5py 更加“pythonic”。
- PyTables(来自 PyTables FAQ):在 HDF5 和 NumPy 之上构建了一个额外的抽象层。它具有更广泛的搜索功能(与 h5py 相比)。
处理 HDF5 数据时,了解 HDF5 数据模型很重要。这超出了本文的范围。为简单起见,将数据模型视为文件系统;其中“组”和“数据集”就像“文件夹”和“文件”。两者都可以具有属性。“节点”是用来指代“组”或“数据集”的术语。
@Kiran Ramachandra 概述了一种使用h5py
. 由于您使用 标记了您的帖子pytables
,因此下面概述的过程与使用 相同pytables
。
注意:Kiran 的示例假设数据集 1、2、3 都在根级别。你说你也有团体。您的小组可能也有一些数据集。您可以使用HDFView实用程序查看数据模型和您的数据。
import tables as tb
h5f = tb.open_file('a.h5')
这为您提供了用于访问其他对象(组或数据集)的文件对象。
h5f.walk_nodes()
它是节点和子节点的可迭代对象,并提供完整的 HDF5 数据结构(记住“节点”可以是组和数据集)。您可以列出所有节点和类型:
for anode in h5f.walk_nodes() :
print (anode)
使用以下命令获取(非递归)Python 节点名称列表:
h5f.list_nodes()
cloudy
这将从dataset1
(如果存在)获取属性的值:
h5f.root.dataset1._f_getattr('cloudy')
如果你想要一个节点的所有属性,使用这个(显示为dataset1
):
ds1_attrs = h5f.root.dataset1._v_attrs._v_attrnames
for attr_name in ds1_attrs :
print ('Attribute', attr_name,'=' ,h5f.root.dataset1._f_getattr(attr_name))
以上所有引用dataset1
都位于根级别 ( h5f.root
)。如果数据集在一个组中,您只需将组名添加到路径中。在dataset2
名为 的组中agroup
,使用:
h5f.root.agroup.dataset2._f_getattr('rainy')
rainy
这将从dataset2
in获取属性的值agroup
(如果存在)
如果您想要所有属性dataset2
:
ds2_attrs = h5f.root.agroup.dataset2._v_attrs._v_attrnames
for attr_name in ds2_attrs :
print ('Attribute', attr_name,'=' , h5f.root.agroup.dataset2._f_getattr(attr_name))
为了完整起见,下面附上a.h5
我的示例中要创建的代码。numpy
只需要dtype
在创建表时定义。通常,HDF5 文件是可互换的(因此您可以使用 来打开此示例h5py
)。
import tables as tb
import numpy as np
h5f = tb.open_file('a.h5','w')
#create dataset 1 at root level, and assign attribute
ds_dtype = np.dtype([('a',int),('b',float)])
dataset1 = h5f.create_table(h5f.root, 'dataset1', description=ds_dtype)
dataset1._f_setattr('cloudy', 'True')
#create a group at root level
h5f.create_group(h5f.root, 'agroup')
#create dataset 2,3 at root.agroup level, and assign attributes
dataset2 = h5f.create_table(h5f.root.agroup, 'dataset2', description=ds_dtype)
dataset2._f_setattr('rainy', 'True')
dataset3 = h5f.create_table(h5f.root.agroup, 'dataset3', description=ds_dtype)
dataset3._f_setattr('cloudy', 'True')
h5f.close()
推荐阅读
- ios - 归档时在范围内找不到类型“TimelineEntry”
- node.js - Apache 上 NodeJS Express 的 HTTP2 设置引发错误
- logparser - 我可以将 logparser extract_token 与在带引号的字符串中忽略该分隔符的分隔符一起使用吗
- javascript - 合并两个数组并保留其他字段(数组对象之间的差异)
- angular - 在 Angular 10 中启用 Ivy 的问题
- bash - 在 Bash 提示符 PS1 中将元音更改为数字
- jhipster - 在 JDL-studio 中显示主从关系
- javascript - 根据输入字段的数值隐藏或显示不同的DIV
- sql - 有没有办法优化批量更新查询?
- reactjs - 如何在 API 请求之外打印值