首页 > 解决方案 > Scrapy 不跟随图片的链接

问题描述

Scrapy 中有没有办法不遵循<a>指向图像的标签?

例如:

<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">

我目前的代码:

for a in set(response.xpath('//a/@href')):
    yield scrapy.Request(url, callback=self.parse) 

显然我可以添加硬编码检查,但想知道是否有内置选项?

标签: pythonscrapy

解决方案


使用LinkExtractor,默认情况下它会过滤掉常见的图像/视频/音频/文件扩展名。

在这里查看被忽略的扩展名。


推荐阅读