首页 > 解决方案 > 使用种子 URL 更新主机字段名称

问题描述

我正在开发 Storm Crawler 1.10 和 ES 6.4.2。我在种子文件中插入了几个 url,我希望根据主机名过滤结果。有什么方法可以告诉爬虫将种子 url 存储在主机字段中。

例如,我的种子网址是https://abce.com/ghihttps://abce.com/jklhttps://abce.com/mno。需要根据https://abce.com/ghi过滤结果。尝试使用弹性搜索通配符过滤器,但结果不准确。

标签: elasticsearchweb-crawlerstormcrawler

解决方案


主机字段用于分片并自动创建。只需为其创建一个新的可搜索字段。

您可以在种子文件中为每个条目添加自定义元数据,例如 https://abce.com/ghi seed=ghi

您需要指定元数据传输的密钥,以便外链获取它:

 metadata.transfer:
   - seed

然后配置索引器,以便为它创建一个字段

 indexer.md.mapping:
  - seed=seed

最后,您可能想要细化 ES 模式并使该字段成为关键字

"seed": {
         "type": "keyword",
         "index": "true",
         "store": true
        }

推荐阅读