首页 > 解决方案 > 计算 h2o 帧的哈希值

问题描述

我想计算一些哈希值h2o.frame.H2OFrame。理想情况下,在Rpython中。我的理解h2o.frame.H2OFrame是这些对象基本上“活”在h2o服务器上(即,由一些Java对象表示)而不是在Rpython它们可能被上传的地方

我想计算“尽可能接近”实际训练算法的哈希值。这排除了计算基础Rpython对象(序列化)的哈希值,以及加载数据的任何基础文件。这样做的原因是我想捕获h2o上传函数对基础数据执行的所有(可能)更改。

h2o 文档推断,没有通过h2o.frame.H2OFrame. 实现h2o数据的类似哈希的汇总的一种可能性是通过对所有数字列求和并对分类列执行类似的操作。但是,我真的很想在我的哈希函数中产生一些雪崩效应,以便函数输入的微小变化导致输出的巨大差异。此要求排除了简单的总和等。

是否已经有一些我可能忽略的界面?如果没有,我怎样才能完成上述任务?

import h2o
h2o.init()
iris_df=h2o.upload_file(path="~/iris.csv")

# what I would like to achieve
iris_df.hash()
# >>> ab2132nfqf3rf37 

# ab2132nfqf3rf37 is the (made up) hash value of iris_df

谢谢您的帮助。

标签: pythonrh2o

解决方案


它在 REST API 1中可用(参见屏幕截图),您也可以在 Python 的 H2OFrame 对象中找到它,但它没有直接公开。


推荐阅读