首页 > 解决方案 > Scrapy不返回任何结果

问题描述

我尝试构建一个 Scrapy 蜘蛛来从德国新闻网站检索内容。但是我没有得到任何回应。这是我的蜘蛛的最小版本:

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class ZeitSpider(CrawlSpider):
    name = 'Zeit Online'
    allowed_domains = ['zeit.de']
    start_urls = ['https://www.zeit.de']

    def parse(self,response):
        self.logger.info('A response from %s just arrived!', response.url)

所以我的理解是,这个最小的示例蜘蛛会准确地抓取起始 url 并parse在其上调用函数,然后应该给出一个日志条目。但什么也没有发生。这是来自调用的日志scrapy crawl

2021-01-07 08:34:56 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: newsscraper)
2021-01-07 08:34:56 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.6.9 (default, Oct  8 2020, 12:12:24) - [GCC 8.4.0], pyOpenSSL 20.0.1 (OpenSSL 1.1.1  11 Sep 2018), cryptography 2.1.4, Platform Linux-4.15.0-128-generic-x86_64-with-Ubuntu-18.04-bionic
2021-01-07 08:34:56 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor

我的代码中是否缺少某些内容?还是这是其他问题?我将如何检查这个?

标签: pythonscrapy

解决方案


推荐阅读