python - 如何从python脚本运行和保存scrapy状态
问题描述
在scrapy项目中,我们可以通过JOBDIR设置定义一个作业目录来获得持久性支持,例如。
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
但是,如何在 Python 脚本中使用 scrapy.crawler.CrawlerProcess 运行蜘蛛时执行相同操作,如 如何从 Python 脚本中运行 Scrapy中所回答的那样?
解决方案
正如您的参考问题指出的那样,您可以将设置传递给 CrawlerProcess 实例。
所以你需要做的就是通过JOBDIR
设置:
import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess({
'JOBDIR': 'crawls/somespider-1' # <----- Here
})
process.crawl(MySpider)
process.start()
推荐阅读
- python - 堆积条形图返回意外输出(Python,绘图)
- docker - 需要 EC2 docker 容器的 mkdir 权限
- sql - 如何通过 VBA 运行 SQL 查询,查询存储在 Excel 单元格中?
- javascript - 数据表不显示数据卡在处理中
- javascript - 谷歌自定义搜索在使用 js 更新搜索查询时未刷新其结果
- linux - 是否可以使用 rsync 覆盖目的地的文件权限?
- python - Pandas to_sql 将行添加到数据库。错误:[ODBC SQL Server 驱动程序] 转换规范的字符值无效
- vba - VBA - 自动过滤器数组中的连接字符串不起作用
- sql - 在 Teradata 中获取查询的列名
- go - 使用 GORM 解析 json 时重用 struct