java - 外部链接 在 Tika 中爬网 - Java
问题描述
我在 Java 中使用 tika 解析器从 pdf、word 文档和 PPT 中提取内容,我不希望 tika 解析器读取文档中的超链接,但在默认配置下,它会被抓取并导致我出现问题。
如何配置 tika 解析器不索引文件中的外部链接?
解决方案
推荐阅读
- node.js - NodeJs 多供应商站点和产品访问
- python - 为什么我在 PostListView 中收到“post”的关键错误
- node.js - 如何在 iis 虚拟目录中部署 node.js 应用程序
- javascript - React + Django 中的 URL 路由问题
- qt - 从 C++ 类调用 QML 函数?
- python - 在不平衡数据集上解释 AUC、准确性和 f1 分数
- django - 形式和模型之间的循环依赖
- php - MySQL没有将转义字符转换为原始字符串
- kotlin - 持久性.CordaPersistence。- 清理任务失败:[errorCode=1d5efik, moreInformationAt=https://errors.corda.net/OS/4.4/1d5efik]
- r - r中的随机效应模型