python - Scrapy不返回任何结果
问题描述
我尝试构建一个 Scrapy 蜘蛛来从德国新闻网站检索内容。但是我没有得到任何回应。这是我的蜘蛛的最小版本:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ZeitSpider(CrawlSpider):
name = 'Zeit Online'
allowed_domains = ['zeit.de']
start_urls = ['https://www.zeit.de']
def parse(self,response):
self.logger.info('A response from %s just arrived!', response.url)
所以我的理解是,这个最小的示例蜘蛛会准确地抓取起始 url 并parse
在其上调用函数,然后应该给出一个日志条目。但什么也没有发生。这是来自调用的日志scrapy crawl
:
2021-01-07 08:34:56 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: newsscraper)
2021-01-07 08:34:56 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.6.9 (default, Oct 8 2020, 12:12:24) - [GCC 8.4.0], pyOpenSSL 20.0.1 (OpenSSL 1.1.1 11 Sep 2018), cryptography 2.1.4, Platform Linux-4.15.0-128-generic-x86_64-with-Ubuntu-18.04-bionic
2021-01-07 08:34:56 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
我的代码中是否缺少某些内容?还是这是其他问题?我将如何检查这个?
解决方案
推荐阅读
- html - 将两种颜色效果变成圆形img
- python - 使用 Python 和 BeautifulSoup 抓取表格
- r - R Shiny Application 移动图位置
- swiftui - 崩溃导致索引超出范围——尽管我确定索引没有超出范围
- amazon-web-services - 如何动态更改 DefinitionBody 内的 S3 路径
- python - DRF:在一个请求中过滤多个字段
- r - 结合嵌套 `tar_map` 调用的结果
- c# - 实体框架 - 按一列分组并选择多列
- python - discord.py重写中用逗号分隔的多个参数?
- javascript - 在正文中发送带有 JSON.stringify(obj) 的帖子不会在 API 接收端产生字符串