python - Scrapy 不跟随图片的链接
问题描述
Scrapy 中有没有办法不遵循<a>
指向图像的标签?
例如:
<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">
我目前的代码:
for a in set(response.xpath('//a/@href')):
yield scrapy.Request(url, callback=self.parse)
显然我可以添加硬编码检查,但想知道是否有内置选项?
解决方案
使用LinkExtractor,默认情况下它会过滤掉常见的图像/视频/音频/文件扩展名。
在这里查看被忽略的扩展名。
推荐阅读
- sql-server - SQL Server - 2 秒插入和 5 分钟归档 - 如何避免表锁定?
- php - 使用 Laravel 无法在 VueJS 中呈现 B 按钮
- python - 如何在 SQLAlchemy 中正确绑定对(元组数组、多维数组)?
- php - 使用 Ajax 和 Laravel 控制器从 datepicker 获取日期
- java - 将 HOCON 字符串转换为 Java 对象
- python - 在matplotlib中获取鼠标点击的坐标 - Python
- ms-access - 如何在失控的表格中停止自动编号?
- javascript - Redux Form 通过简单的验证返回意外错误。为什么?
- javascript - 在随后的几个月中复制条目
- c++ - 在 pe 二进制 rdata 部分(字符串)中对本地源文件的引用