nutch - 如何在种子文件中添加 nutch1.17 新网址将 nutch 获取旧网址和新网址?
问题描述
如果我每天都有新的网址来抓取新的网址以及如何存储在 crawldb 中,我可以知道如何使用 nutch 工作。我是 nutch 的新手,请告诉我方法。
解决方案
可以随时使用注入命令将新 URL 添加到 Nutch 的 CrawlDb。然后在下一个生成-获取-更新周期中获取和处理新添加的 URL。
推荐阅读
- python - 如何使用预训练模型的第一层来提取 Keras 模型中的特征(功能 API)
- python - 需要将元组传递给子类来绘制三角形
- python - 由于未知原因,无法使用 pip 安装软件包
- python - 如何使用 python beautiful soup 抓取仅出现在鼠标悬停上的数据?
- regex - 如何选择具有自定义单词边界的第一个字符?
- java - 使用递归将十进制转换为二进制
- soap - 用于用户列表的 DocuSign SOAP API
- owl - 为什么 HermiT 认为非对称子属性与对称属性一致?
- ms-office - Office 错误地说文件来自互联网
- c# - 在 C# 中与类的层次结构作斗争