首页 > 解决方案 > 外部链接 在 Tika 中爬网 - Java

问题描述

我在 Java 中使用 tika 解析器从 pdf、word 文档和 PPT 中提取内容,我不希望 tika 解析器读取文档中的超链接,但在默认配置下,它会被抓取并导致我出现问题。

如何配置 tika 解析器不索引文件中的外部链接?

标签: javaapache-tika

解决方案


推荐阅读