首页 > 解决方案 > 带有 ES 的 Stormcrawler - 内容未存储

问题描述

即使在索引器配置为存储内容后,ES 中也不会出现内容/文本。

Stormcrawler 1.14, ES 7.0 - 遵循在线教程并将配置更改为 ES_IndexInit:Stormcrawler not indexing content with Elasticsearch

以下是 ES_IndexInit.sh 中内容属性的更改

"mappings": {
   "_source": {
    "enabled": true
    },
    "properties": {
    "content": {
       "type": "text",
       "index": "true",
       "store": true
    },
  ....

本地模式下的爬网成功运行,状态和指标索引已填充数据。但是内容索引仍然是空的:

curl -H 'Content-Type: application/json' -XGET <my-es-host>:<my-es-host-port>/content/_search?pretty
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 0,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  }
}

爬网日志不指示任何失败,除了缺少内容外,结果与指定的一致。看起来像一个配置问题,但在消除了通常的嫌疑人之后,问题仍然存在。

标签: stormcrawler

解决方案


推荐阅读