scrapy - 在 pipelines.py 中从蜘蛛获取变量
问题描述
我需要存储中间数据。因此,在蜘蛛中,在解析方法中,我创建了存储它的变量。
text_from_pdf = pdf_to_text(response.body)
现在我需要在 pipeline.py 中访问这个变量我该怎么做?我试过这个
def open_spider(self, spider):
self.file = open('items.txt', 'w')
def close_spider(self, spider):
self.file.close()
def process_item(self, item, spider):
if spider.text_from_pdf:
line = json.dumps(**spider.text_from_pdf**) + "\n"
self.file.write(line)
return item
但是属性错误对我不起作用。
解决方案
将数据添加到项目。
如果最终项目不应包含 id,您可以使用管道从项目中删除数据。
推荐阅读
- android - 有没有我应该使用的插件来读取 Nativescript Angular 中的 MRZ 代码
- javascript - 没有使用 ajax 和旧 jquery 发送数据
- cobol - 我写了一个 Cobol Report Writer 程序,但我无法编译它
- php - 在 Laravel 中显示和引用 json_encode
- elasticsearch - 使用 ElasticSearch 和 Lucene 在线程“main”java.lang.NoSuchFieldError 中获取异常:LUCENE_7_2_1
- linux - Postgresql 用户“postgres”需要密码才能创建数据库
- d3.js - 根据另一个数据集更改 d3 圆的笔画
- regex - VIM 删除模式的所有匹配项
- azure - 如何在客户端授权下使用 Microsoft.Graph 而不会获得 401
- ruby - ArgumentError 参数个数错误(给定 0,预期为 1)