pdf - 如何查找存储在 HDFS 中的两个 PDF 之间的相似度分数
问题描述
我将 PDF 作为非结构化数据存储在 Hadoop HDFS 中。我想找出两个 PDF 是否相似,以及这两个 PDF 的相似性和不同之处是什么。
我是新手,所以如果您能帮助我提供代码及其详细信息,那将非常有帮助。
解决方案
如果这些 PDF 文件是纯文本,您可以先使用如何从 PDF 中提取文本中的工具从 pdf 文件中提取文本?并计算这些文本的某种 LSH(例如simhash)。
那么两个文件的 LSH 的距离就可以作为它们的相异度。
推荐阅读
- angular - ag-grid:使用服务器端行模型的行分组问题(ag-grid 版本 22.1.0)
- python - Why python if command doesnt work correctly?
- reactjs - Refresh part of page in a service worker push event in React
- windows - 尽管指定了另一个驱动器进行安装,为什么 Visual Studio 仍坚持在系统驱动器上安装部分组件?
- asp.net - 如何在站点 web.config 级别禁用 IIS 10 中的 brotli httpCompression?
- javascript - D3js图例颜色与地图颜色javascript不匹配
- powerbi - 创建一个过滤器,显示过去 12 小时的数据功率 bi
- katalon-studio - Katalon 测试集合构建在 Jenkins 上失败
- vitess - 启动 vreplication 引擎时出错:通过 connection 连接到 mysql db 时出错
Kubernetes 上的 Vitess - neo4j - 如何在 neo4j 中的两个属性上创建唯一约束?