scrapy - 我的错误在哪里-异地请求-scrapy
问题描述
我正在尝试解决异地请求错误,我的错误在哪里?
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class BestMoviesSpider(CrawlSpider):
name = 'best_movies'
allowed_domains = ['imbd.com']
start_urls = ['https://www.imdb.com/search/title/?groups=top_250&sort=user_rating']
rules = (
Rule(LinkExtractor(restrict_xpaths='//h3[@class="lister-item-header"]/a'), callback='parse_item', follow=True),
)
def parse_item(self, response):
print(response.url)
在 VSCode 中向我展示:
[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.imdb.com': <GET https://www.imdb.com/title/tt0111161/>
而不是链接列表。
解决方案
错误的域,你有:
allowed_domains = ['imbd.com']
但应该像网站域:
allowed_domains = ['imdb.com']
您有 im bd,需要更改为 im db
推荐阅读
- ios - 贫穷国家可以使用 Apple 商店定制支付解决方案吗?
- c# - “无法访问 Newtonsoft.Json.Linq.JValue 上的子值”
- laravel - 如何找回未定义的路线?
- ios - 未找到模块“path_provider”
- python-3.x - Python3 - 使用 except 时未捕获 IndexError
- javascript - 使用 jQuery.Deferred() 在循环内进行顺序 AJAX 调用
- python - 如何在 Python 中为团队合作创建通用环境
- javascript - 尝试运行 Hasura 突变时无法读取未定义的属性“affected_rows”
- c++ - 尝试运行代码时出现 AddressSanitizer 错误
- yup - 函数时如何在Yup中获取当前字段值