首页 > 解决方案 > Stormcrawler 的 ContentParseFilter

问题描述

如果我将 StormCrawler 的 ContentParseFilter 设置为

"pattern": "//DIV[@id=\"site-body\"]",

这是否意味着在处理每个 url 时它会寻找指向其他页面的链接的唯一地方?我想知道我是否设置它是否会开始忽略菜单中的所有网址等。

谢谢!吉姆

标签: web-crawlerstormcrawler

解决方案


参见ParseFilters 的 WIKI 页面

ContentFilter 允许将文档的文本限制为 Xpath 表达式所涵盖的文本

它根本不影响链接的提取,而是旨在改进索引的文本。


推荐阅读