首页 > 解决方案 > 我应该为 python 爬虫使用无限循环还是 cron 作业?

问题描述

我用 python 编写了一个爬虫,它可以访问 60 多个网站,解析 HTML,并将数据保存到数据库。

现在我正在使用 cron 作业每 15 分钟运行一次爬虫。问题是我无法告诉爬虫完成需要多少时间(有时可能需要超过 15 分钟),如果一个爬虫已经在运行,我不想运行另一个爬虫。

我一直在想我是否会更好地使用无限循环并使爬虫成为一个始终运行的永久进程(但是我如何确保爬虫不会失败并退出?以及如何在每次退出时重新启动它?) .

哪个效率更高?无限循环或cron作业?

标签: pythoncronweb-crawler

解决方案


推荐阅读