首页 > 解决方案 > PDF 抓取代码已终止(缓存已满,试图找到解决方法)

问题描述

所以我刚开始用 Python 编码。我有很多 pdf,它们是我获取数据的目标。我已经完成了脚本,如果我将其限制为少量 pdf (~200),它可以正常工作。如果我让 skript 以 4000 pdf 运行,则脚本将终止而不会出现错误。我的朋友告诉我,这是由于缓存。

我将抓取的数据保存到一个列表中,并在最后一步从不同的列表中创建一个 DataFrame。然后将 DataFrame 导出到 excel。

所以我尝试在 200 个 pdf 之后导出 DataFrame(然后清除所有列表和数据框),但是 Pandas 会覆盖之前的结果。这是正确的方法吗?或者任何人都可以想出一种不同的方法来通过大量的 pdf 来绕过终止?

现在我使用:

   MN=list()
   Vds=list()
   data={'Materialnummer': MN,'Verwendung des Stoffs':VdS}
   df=pd.DataFrame(data)
   df.to_excel('test.xls')

标签: pythonpandaspdf

解决方案


推荐阅读