web-scraping - 从 sh 脚本启动爬虫的问题
问题描述
当我尝试用蜘蛛运行我的 sh 脚本时,它只显示一个警告并且不解析,但是当我自己运行蜘蛛时,解析很好
我的.sh文件
#!/bin/bash
# shellcheck disable=SC2164
cd /var/www/scrapy_parser/avito/avito/spiders
scrapy crawl avito -L WARNING
cd /var/www/scrapy_parser/info/info/spiders
scrapy crawl info_v1 -L WARNING.
sh 输出:
WARNING: /usr/local/lib/python3.6/site-packages/scrapy/extensions/feedexport.py:210:
ScrapyDeprecationWarning: The `FEED_URI` and `FEED_FORMAT` settings have been deprecated in
favor of the `FEEDS` setting. Please see the `FEEDS` setting docs for more details
exporter = cls(crawler)
我能做些什么来解决这个问题?
解决方案
一般来说,我通过记录解决了这个问题,最后发现我解析的站点将我作为机器人阻止了,并且 sh 脚本没有读取系统中预装的代理,我通过添加代理解决了所有问题在启动蜘蛛之前直接设置为 sh 脚本
推荐阅读
- python - 从 Panel Tkinter 获取图像属性
- ios - CAKeyframeAnimation 没有按预期改变位置
- regex - RewriteRule Regex 301 重定向不执行任何重定向
- sql - 规范化 - 表结构
- node.js - Sequelize - 运行同步正在构建多个版本的表,这些表具有不同的 FK 文件名和不同版本中的初始化值
- coinbase-api - 银行 ACH 的 Coinbase API 端点
- xml - 需要从一个以标记拆分的奇怪 xml 文件构建整个句子
- plot - 为什么 TradingView 在当前蜡烛上画一条新线?
- html - 如何在 TAB 中的按钮上放置按钮?
- python - 如何从数据框中删除 NBA 球员的位置并创建一个新列“位置”?