首页 > 解决方案 > 阻止scrapy重定向到特定国家的域

问题描述

我正在尝试从 airbnb.com 中提取数据。但是,每当我尝试访问其域中包含 .com 的网站时,它都会重定向到具有 .ca 的域。

这是我认为可以描述我的问题的代码片段

In [46]: fetch(url)                      
2021-02-05 09:17:36 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (307) to <GET https://www.airbnb.ca/s/nova/homes?tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&date_picker_type=calendar&source=structured_search_input_header&search_type=search_query&locale=en&_set_bev_on_new_domain=1612519553_NTk3ZTMyZGU4NzI2> from <GET https://www.airbnb.com/s/nova/homes?tab_id=home_tab&refinement_paths[]=%2Fhomes&date_picker_type=calendar&source=structured_search_input_header&search_type=search_query>
                                                                                    

2021-02-05 09:17:37 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.airbnb.ca/s/nova/homes?tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&date_picker_type=calendar&source=structured_search_input_header&search_type=search_query&locale=en&_set_bev_on_new_domain=1612519553_NTk3ZTMyZGU4NzI2> (referer: None)   

实际上,airbnb 会为每个域名为 .com 的列表加载价格。我尝试了各种解决方案,例如 don_redirect 等,但没有收到所需的响应。

标签: python-3.xredirectscrapy

解决方案


推荐阅读