首页 > 解决方案 > Stormcrawler: indexer.md.mapping - 如果元数据标签不存在会发生什么?

问题描述

我们在 Stormcrawler 1.13 中遇到了一个奇怪的问题。在我们的一些(但不是全部)网站上,我们有一个 <meta name="college" content="thiscollege"/>标签,而 SCindexer.md.mapping设置为- parse.college=college. 对于设置了该元标记的网站,这似乎可以正常工作。

我们遇到的问题是,如果thiscollege1为页面 3.html、4.html 和 5.html 设置了 metatag,那么爬虫会命中没有 meta 标签的 page25.html,它似乎是在重复使用thiscollege1来自 5.html 的元标记的值并将其填充到college弹性索引中的字段中。

有没有办法设置它,以便它在每次进入新页面时清零或取消设置该变量,以便该变量不会被结转?

任何有关如何调整此设置的建议将不胜感激!

追查是个麻烦事,因为有些记录似乎只是在其中包含随机条目。直到我将这些记录与一些按 NextFetchDate 排序的状态记录进行匹配,我才发现它可能是一个结转变量。我将尝试用几页纸来设置一个特定的测试来专门证明/反驳这个理论,但现在它是唯一符合正在发生的事情的东西。

欢迎任何想法!

标签: elasticsearchstormcrawler

解决方案


仅当您在配置metadata.transfer的值中列出了 parse.college时,才会发生这种情况。


推荐阅读