首页 > 解决方案 > Nutch+Solr:如何索引嵌入在 HTML 中的 PDF?

问题描述

我正在使用 Nutch+Solr 为我的网站编制索引以获取内部搜索栏。该网站有许多嵌入了 PDF 的 HTML 页面,我希望 PDF 中的文本出现在搜索中。索引 HTML 中的文本工作正常,我可以单独索引 PDF,但我想要一个 Solr 文档,其中包含来自 HTML 的文本及其嵌入的 PDF。有没有办法做到这一点?

这是嵌入 PDF 的方式:

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道该解决方案是否与 Tika 的 EmbeddedDocumentExtractor 有关。但是,我不知道如何在 Nutch 或 Solr 中更改 Tika 的配置。

标签: htmlpdfsolrnutchapache-tika

解决方案


Tika 将 PDF 文件视为链接,EmbeddedDocumentExtractor 用于通过数据 URI内联的内容。嵌入 PDF 需要修改 Tika 的 HtmlHandler 或 Nutch 的 parse-tika 插件。请注意,Nutch 尚未处理<object>元素中的链接,这将在NUTCH-2880中解决。


推荐阅读