python-3.x - 永久存储访问过的链接,以免明天访问
问题描述
我是 Scrapy 的新手。我想知道如何持久保存访问过的链接。我的意思是保存今天访问过的链接,以免明天访问它们。
我在想什么
我正在考虑将每个访问的链接保存到 CSV 文件并在抓取任何链接之前对其进行检查。
解决方案
如果我可以建议,另一个很好的选择是使用永久静态缓存,可以使用这些设置在scrapy上配置:
HTTPCACHE_ENABLED=True
HTTPCACHE_POLICY='scrapy.extensions.httpcache.DummyPolicy'
HTTPCACHE_EXPIRATION_SECS=0 # 0 instructs for cache to never expire
通过这种方式,您可以轻松调试蜘蛛并重新抓取项目,而无需重新下载页面,以防您以任何方式修改页面解析器或项目模式。
如果您最终还是要维护一个 csv 文件,那么官方 python 文档有很好的例子: https ://docs.python.org/3/library/csv.html#examples
推荐阅读
- python - Tkinter 询问线程内的字符串
- docker - Traefik 已启动,但我的服务未使用它
- java - 子实体中多对多关系的堆栈溢出异常
- heroku - 如果请求是从 Heroku 上托管的 Telethon 代码发送的,则 Telegram 不会发送授权代码
- javascript - 如何在函数表达式中包装 Javascript 函数?
- html - 带有主体背景 SVG 纹理的 CSS 形状分波器
- reactjs - 提交错误未显示在反应最终表单上
- ios - 无法安装 iOS IPA 文件,因为无法验证其完整性
- android - 询问 E/RecyclerView:未连接适配器;跳过布局
- javascript - 我正在尝试让一个不和谐的机器人根据有人加入服务器后的时间来分配角色