elasticsearch - Stormcrawler: indexer.md.mapping - 如果元数据标签不存在会发生什么?
问题描述
我们在 Stormcrawler 1.13 中遇到了一个奇怪的问题。在我们的一些(但不是全部)网站上,我们有一个 <meta name="college" content="thiscollege"/>
标签,而 SCindexer.md.mapping
设置为- parse.college=college
. 对于设置了该元标记的网站,这似乎可以正常工作。
我们遇到的问题是,如果thiscollege1
为页面 3.html、4.html 和 5.html 设置了 metatag,那么爬虫会命中没有 meta 标签的 page25.html,它似乎是在重复使用thiscollege1
来自 5.html 的元标记的值并将其填充到college
弹性索引中的字段中。
有没有办法设置它,以便它在每次进入新页面时清零或取消设置该变量,以便该变量不会被结转?
任何有关如何调整此设置的建议将不胜感激!
追查是个麻烦事,因为有些记录似乎只是在其中包含随机条目。直到我将这些记录与一些按 NextFetchDate 排序的状态记录进行匹配,我才发现它可能是一个结转变量。我将尝试用几页纸来设置一个特定的测试来专门证明/反驳这个理论,但现在它是唯一符合正在发生的事情的东西。
欢迎任何想法!
解决方案
仅当您在配置metadata.transfer的值中列出了 parse.college时,才会发生这种情况。
推荐阅读
- javascript - jQuery隐藏的div不会在更改事件中再次显示
- r - which() 函数的结果 *always* 是有序的吗?
- python - 在树莓派中下载 TensorFlow
- c# - 使用与表无关的方法实现通用存储库
- excel - Power Query 填写空单元格单元新值,然后填写该值
- ios - 将 JSON 提取到 ViewController 并转到第二个 ViewController
- python - python 3.6中安装的库如何在python3.7中使用
- python - WEKA 中的交叉验证和 SMOTE
- java - Gradle 找不到 Apache 公共资源
- java - 向后计数Java的匹配字符数组值