python - 使用 simhash 检测附近重复的文档
问题描述
我在github中找到了这个 python 项目,但是当我尝试使用它来检测近乎重复的文档(例如 json)时,我没有从README.md文件中获得足够的信息来说明如何做到这一点?它只显示计算
import simhash
a = simhash.compute(...)
b = simhash.compute(...)
simhash.num_differing_bits(a, b)
以及如何使用
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)
到目前为止我尝试过的内容:克隆此 repo 后,我已经安装了所有要求,但是当我尝试运行时,setup.py
或者bench.py
它正在显示
ImportError:没有名为 simhash.simhash 的模块
这个项目很棒,但我遇到了这个困难,因为README.md文件对如何创建文档哈希的描述性不是很好?,如何传递哈希?以及如何检测附近的重复项?. 因此,我需要有关如何对文档进行哈希处理的帮助?任何人都可以帮助我了解如何使用 python 使用这个simhash来实现近乎重复的文档检测,或者提供任何分步教程链接来实现这个?顺便说一句,我已经看到了,但这并不包含实现它的完整步骤。
解决方案
尝试这个
pip install git+https://github.com/seomoz/simhash-py.git
此外,更多描述 dlecocq 已在问题中发布。下面是那个链接
推荐阅读
- html - 在输入焦点上,CSS 选择器在 Firefox 中不起作用
- windows - IIS 抛出 HTTP 错误 500.0 - IsapiModule
- isabelle - Isabelle CONST 含义(与 THE 相关)
- ios - 如何在不打开 xcode 的情况下将 ionic 构建推送到 ios 设备?
- python - Keras 训练的回归模型预测所有测试特征集的相同输出
- tensorflow - 如何在 Keras 中将图层乘以常数向量元素?
- java - 为什么代码不能在 for 循环中工作?
- python - 如何使用 pandas 或 dask 并行化这个 for 循环(或使其更快)
- python - 我正在努力从 Python 实现 RTransferEntropy
- python - 在模板中渲染 ValidationError