html - Nutch+Solr:如何索引嵌入在 HTML 中的 PDF?
问题描述
我正在使用 Nutch+Solr 为我的网站编制索引以获取内部搜索栏。该网站有许多嵌入了 PDF 的 HTML 页面,我希望 PDF 中的文本出现在搜索中。索引 HTML 中的文本工作正常,我可以单独索引 PDF,但我想要一个 Solr 文档,其中包含来自 HTML 的文本及其嵌入的 PDF。有没有办法做到这一点?
这是嵌入 PDF 的方式:
<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>
我想知道该解决方案是否与 Tika 的 EmbeddedDocumentExtractor 有关。但是,我不知道如何在 Nutch 或 Solr 中更改 Tika 的配置。
解决方案
Tika 将 PDF 文件视为链接,EmbeddedDocumentExtractor 用于通过数据 URI内联的内容。嵌入 PDF 需要修改 Tika 的 HtmlHandler 或 Nutch 的 parse-tika 插件。请注意,Nutch 尚未处理<object>
元素中的链接,这将在NUTCH-2880中解决。
推荐阅读
- javascript - 以编程方式将控件添加到空数组时独立操作控件 - VueJS
- php - 如何在 Visual Studio Code 中自动将我的接口方法添加到我的类中?
- amazon-web-services - 使用 boto3 创建 aws lambda 集成 api 网关资源
- python - 为什么 multiprocessing.Process() 和 concurrent.futures.ProcessPoolExecutor() 使用 logging.handlers.QueueHandler() 给出不同的日志输出?
- android - 在 android 应用程序上添加一个点击呼叫图标(主应用程序旁边的另一个额外图标)。怎么做?
- javascript - 使用 nodejs 从 twitter API 检索超过 100 条推文
- nginx - 在没有 ssl 的生产服务器上带有乘客和 nginx 的操作电缆
- c# - 如何编写列表
在 C# 中以科学计数法转换为 Json? - postgresql - 如何在 PostgreSql 上使用 Jooq 级联截断?
- node.js - 登录成功但没有重定向到reactjs中的另一个页面(react-router-dom,axios)