scrapy - 从索引页面有条件地抓取已抓取的项目
问题描述
我正在尝试使用 python scrapy 抓取电影评论网站。
在电影评论的索引页面中,项目按相关性排序,因此项目不能以新项目出现在列表顶部的方式排序。
因此,我希望能够每天浏览索引并跳过我已经抓取的那些评论。
我正在考虑将每条评论导出到一个文件中。
是否可以从蜘蛛检查文件是否已经存在?这是最好的做法吗?
我是网络抓取的新手,我不知道这是否是一个好习惯。
解决方案
推荐阅读
- encoding - 如果有 N(10 个或更多)符号,我如何找到以 Huffman 编码的码字的平均长度?
- python - 在不使用任何内置函数的情况下在给定整数中找到两个连续数字时的布尔值 True 或 False
- sequelize.js - 字符串日期排序:Sequelize
- gradle - Gradle 已经安装了外部库,但它们没有解决
- xml - Maven XML 文件,2 个不同的源目录,文件名相同
- gradle - 哪些依赖项被添加到使用“项目库依赖项”的 Gradle 项目中,这是可配置的吗?
- javascript - 如何避免在动态生成的 HTML 元素上使用 onClick (vanilla js)
- javascript - 检测按下了哪个按钮 sdk paypal
- android - 为 android 配置 Flutter“sign_in_with_apple”时出现问题
- python - 您可以使用 ffmpeg 流实时插入文件中的文本吗?