首页 > 解决方案 > 从 sh 脚本启动爬虫的问题

问题描述

当我尝试用蜘蛛运行我的 sh 脚本时,它只显示一个警告并且不解析,但是当我自己运行蜘蛛时,解析很好

我的.sh文件

#!/bin/bash
# shellcheck disable=SC2164
cd /var/www/scrapy_parser/avito/avito/spiders
scrapy crawl avito -L WARNING
cd /var/www/scrapy_parser/info/info/spiders
scrapy crawl info_v1 -L WARNING.   

sh 输出:

WARNING: /usr/local/lib/python3.6/site-packages/scrapy/extensions/feedexport.py:210: 
ScrapyDeprecationWarning: The `FEED_URI` and `FEED_FORMAT` settings have been deprecated in 
favor of the `FEEDS` setting. Please see the `FEEDS` setting docs for more details
exporter = cls(crawler)

我能做些什么来解决这个问题?

标签: web-scrapingscrapysh

解决方案


一般来说,我通过记录解决了这个问题,最后发现我解析的站点将我作为机器人阻止了,并且 sh 脚本没有读取系统中预装的代理,我通过添加代理解决了所有问题在启动蜘蛛之前直接设置为 sh 脚本


推荐阅读