首页 > 解决方案 > 在处理每一行时编辑输入 CSV 文件(或它的副本)

问题描述

长话短说,在 Python/BeautifulSoup 速成课程之后,我设法创建了一个脚本来获取包含 URL 列表(每行 1 个)的输入文本文件,抓取 URL,并将输出写入数据库。在某些情况下,我希望错误退出脚本(包括一些被捕获的错误以及意外错误),但由于要抓取的 URL 列表非常大,如果我可以编辑输入文本文件(或创建一个副本并对其进行编辑)以在成功处理每个 URL 时将其删除。这个想法是,如果脚本退出(通过陷阱或崩溃),我将有一个待处理的 URL 列表。这样的事情可能吗?我可以找到代码示例来编辑文本文件,但我不知道如何取出刚刚处理的行。

标签: python-3.xweb-scrapingbeautifulsoup

解决方案


终于在这里找到了答案,虽然我不肯定这是最有效的方法,因为它每次都读取整个文件并保存,但这可能是 Python 中可以做到的最好的方法。就我而言,该文件在 1200 行范围内,因此很容易放入内存中。


推荐阅读