apache-spark - spark中的minHashLSH实现解释
问题描述
spark mllib 中 minhashLSH 的拟合实际上有什么作用?据我了解,它会生成一组散列函数。这些函数是随机生成的吗?我们在这里用输入数据拟合什么?
我使用过的代码参考
上面生成的哈希函数可以在两个数据集上的 appx.similiarityjoin 中使用以生成哈希,并在这些哈希上计算 jaccard 距离。如果我在这里遗漏了什么,请告诉我。
解决方案
推荐阅读
- java - HashMap.get() 在一个片段中有效,而在另一个片段中无效,为什么?
- calendar - 如何在全日历 4.0 日模式下设置事件宽度
- html - JAWS 将标题读取为可点击,即使父 div 没有关联的点击处理程序
- react-native - React Native 将捕获的图像和视频保存到我设备上的自定义文件夹中
- scheme - 如何找出绑定是在哪个 guile 模块中定义的?
- python - 为什么 Dask 数据帧的 compute() 方法很慢,但 head() 方法却很快?
- scala - 如何在 Spark 列中编写函数,以便列中的每个字段增加值?
- java - 使用 java kafka 和 InelliJ 并且 var 带有红色下划线且不允许
- python - 我必须为我制作的每个项目安装 django 吗?
- c++ - 从 Stroustrup 的 C++ 编译模板友元示例时出现问题