首页 > 解决方案 > 如何让scrapy定义工作的http前缀?

问题描述

我在一组域上运行刮板。带有域的列表是从外部提供的,使用 scrapy 进行的测试清楚地表明,对于某些网站,http 前缀没有正确指定。当您尝试导航 http:// www .example.com 而不是http://example.com时,某些网站会引发 DNS 错误。

我试图通过一个 for 循环来解决这个问题,该循环为每个域生成具有最常见前缀(http://www.、http://、https://、https://www.)的组合。然而,我发现对于某些网站,这会导致它们被抓取两次(只有所有重复的内容),这不仅对我来说效率低下,而且也不符合网络礼仪。

我有两个问题:

我已经看到如何检查网站是否支持 http、htts 和 www 前缀与 scrapy,但感觉像是绕道而行,它应该是 Scrapy 本身的一部分。

标签: pythonhttpweb-scrapingscrapy

解决方案


推荐阅读