首页 > 解决方案 > 从索引页面有条件地抓取已抓取的项目

问题描述

我正在尝试使用 python scrapy 抓取电影评论网站。

在电影评论的索引页面中,项目按相关性排序,因此项目不能以新项目出现在列表顶部的方式排序。

因此,我希望能够每天浏览索引并跳过我已经抓取的那些评论。

我正在考虑将每条评论导出到一个文件中。

是否可以从蜘蛛检查文件是否已经存在?这是最好的做法吗?

我是网络抓取的新手,我不知道这是否是一个好习惯。

标签: scrapy

解决方案


推荐阅读