python-3.x - Scrapy 在分页中提供了模棱两可的结果
问题描述
我创建了一个做分页的scrapy spider。使用来自同一网站的不同链接的相同脚本,分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果?
解决方案
您应该提供您的代码,以便我们提供更多帮助。
确保您只有allowed_domains
蜘蛛域中的域。例如:
class MySpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
start_urls = ['https://example.com/some/path/here']
显然,其中的域allowed_domains
必须与您创建请求的域相匹配。
您也可以完全删除此属性。更多细节在allowed_domains
这里。
推荐阅读
- python - Python倒计时不是逐行
- php - 如果在 PHP 中具有相似的值,则比较数组对象
- python - 如何安排脚本定期运行?
- r - R:数据帧的条目可以是长度> 1的向量吗?
- .net - 特定代的 .NET GC 之前的 WinDbg 条件断点
- google-calendar-api - Google 日历 API:复制会议数据不起作用
- c# - WPF Button DataTrigger 未正确设置内容
- cron - 如何安排 Linux 中的 Crontab 在 X 的每一分钟运行一次?
- go - Go中的树引用父亲ID
- apache-beam - 通过 Apache Beam 从 Hive 读取