首页 > 解决方案 > 如何查找存储在 HDFS 中的两个 PDF 之间的相似度分数

问题描述

我将 PDF 作为非结构化数据存储在 Hadoop HDFS 中。我想找出两个 PDF 是否相似,以及这两个 PDF 的相似性和不同之处是什么。

我是新手,所以如果您能帮助我提供代码及其详细信息,那将非常有帮助。

标签: pdfcomparisonhdfsartificial-intelligencecosine-similarity

解决方案


如果这些 PDF 文件是纯文本,您可以先使用如何从 PDF 中提取文本中的工具从 pdf 文件中提取文本?并计算这些文本的某种 LSH(例如simhash)。

那么两个文件的 LSH 的距离就可以作为它们的相异度。


推荐阅读