首页 > 解决方案 > 永久存储访问过的链接,以免明天访问

问题描述

我是 Scrapy 的新手。我想知道如何持久保存访问过的链接。我的意思是保存今天访问过的链接,以免明天访问它们。

我在想什么

我正在考虑将每个访问的链接保存到 CSV 文件并在抓取任何链接之前对其进行检查。

标签: python-3.xscrapy

解决方案


如果我可以建议,另一个很好的选择是使用永久静态缓存,可以使用这些设置在scrapy上配置:

HTTPCACHE_ENABLED=True
HTTPCACHE_POLICY='scrapy.extensions.httpcache.DummyPolicy'
HTTPCACHE_EXPIRATION_SECS=0 # 0 instructs for cache to never expire

通过这种方式,您可以轻松调试蜘蛛并重新抓取项目,而无需重新下载页面,以防您以任何方式修改页面解析器或项目模式。

如果您最终还是要维护一个 csv 文件,那么官方 python 文档有很好的例子: https ://docs.python.org/3/library/csv.html#examples


推荐阅读