首页 > 解决方案 > Scrapy 在分页中提供了模棱两可的结果

问题描述

我创建了一个做分页的scrapy spider。使用来自同一网站的不同链接的相同脚本,分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果?

标签: python-3.xweb-scrapingpaginationscrapy

解决方案


您应该提供您的代码,以便我们提供更多帮助。

确保您只有allowed_domains蜘蛛域中的域。例如:

class MySpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
    start_urls = ['https://example.com/some/path/here']

显然,其中的域allowed_domains必须与您创建请求的域相匹配。

您也可以完全删除此属性。更多细节在allowed_domains 这里


推荐阅读