python - 如何在没有请求的情况下在 Scrapy 中屈服?
问题描述
我正在尝试使用 Scrapy 2.4 抓取已定义的 URL 列表,其中每个 URL 最多可以有 5 个我想要关注的分页 URL。
现在系统也可以工作了,我确实有一个额外的请求要摆脱:
这些页面完全相同,但具有不同的 URL:
example.html
example.thml?pn=1
在我的代码中的某个地方,我做了这个额外的请求,但我不知道如何抑制它。
这是工作代码:
定义一堆要抓取的 URL:
start_urls = [
'https://example...',
'https://example2...',
]
开始请求所有开始 url;
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(
url = url,
callback=self.parse,
)
解析起始 URL:
def parse(self, response):
url = response.url + '&pn='+str(1)
yield scrapy.Request(url, self.parse_item, cb_kwargs=dict(pn=1, base_url=response.url))
从起始 URL 中获取所有分页 URL;
def parse_item(self, response, pn, base_url):
self.logger.info('Parsing %s', response.url)
if pn < 6: # maximum level 5
url = base_url + '&pn='+str(pn+1)
yield scrapy.Request(url, self.parse_item, cb_kwargs=dict(base_url=base_url,pn=pn+1))
解决方案
如果我理解你的问题是正确的,你只需要更改为从 ?pn=1 开始并忽略没有 pn=null 的那个,这是我将如何做的一个选项,它也只需要一个解析方法。
start_urls = [
'https://example...',
'https://example2...',
]
def start_requests(self):
for url in self.start_urls:
#how many pages to crawl
for i in range(1,6):
yield scrapy.Request(
url=url + f'&pn={str(i)}'
)
def parse(self, response):
self.logger.info('Parsing %s', response.url)