python - Scrapy 应该在哪个文件/位置处理数据?
问题描述
Scrapy 有几个允许处理抓取数据的点/地方:spider、items和spider middlewares。但我不明白我应该在哪里做对。我可以在所有这些地方处理一些抓取的数据。你能详细解释一下它们之间的区别吗?
例如:下载器中间件向蜘蛛返回一些数据(数字、短字符串、url、大量HTML、列表等)。我应该在哪里处理它们?我知道该怎么做,但不清楚在哪里做......
解决方案
蜘蛛是定义如何提取数据的主要点,如items。如有疑问,请仅在您的蜘蛛中实现您的提取逻辑,而忘记其他 Scrapy 功能。
项目加载器、项目管道、下载器中间件、蜘蛛中间件和扩展主要用于具有多个蜘蛛的抓取项目中的代码共享。
如果您发现自己在两个或多个蜘蛛中重复相同的代码,并且您决定停止重复自己,那么您应该进入这些组件并选择使用哪些组件来简化您的代码库,将现有的重复代码移动到一个或多个这些类型的组件。
它通常比简单地在 Spider 子类之间使用类继承更好。
至于如何使用每个组件:
项加载器用于共享提取逻辑(例如 XPath 和 CSS 选择器、正则表达式),以及字段值的预处理和后处理。
例如:
如果您正在为使用某种标准方式标记要提取的数据的网站(例如schema.org)编写蜘蛛程序,您可以在项目加载器上编写提取逻辑并在蜘蛛程序中重用它。
如果您想始终将项目字段的值切换为大写,您将在项目加载器类上使用输出处理器,并在蜘蛛之间重用该项目加载器。
项目管道用于项目的后处理(不仅仅是特定项目中的项目数据)。
常见用例包括删除重复项(通过跟踪解析的每个项的唯一标识数据)或将项发送到数据库服务器或其他形式的存储(作为提要导出的灵活替代方案)。
下载器中间件用于处理响应请求的共享逻辑。
常见用例包括实施反机器人软件检测和处理或代理处理。(内置下载器中间件)
推荐阅读
- javascript - 尝试多次附加一个 html 表,但是当我重新单击它时,我的 'th' 总是出现在顶部而不是在 'tr' 之后
- python - 我无法使用 kivy 显示数据库
- c - STM32F103RB - 如何知道使用哪个引脚发送触发信号
- java - 如何计算结果 % 第 10,000,001 个素数的阶乘答案
- javascript - 从我的项目中删除所有 componentWillMount,如果我的子组件依赖于 api 响应,那么替换是什么
- flutter - Flutter - 如何实时、定期、在后台运行将位置更新发送到后端。(在安卓和IOS上)
- amazon-web-services - Micronaut 无法处理调用 Lambda 的 AWS Http API 网关 V2
- output - Verilog 条件分配输出 X 应该有 1
- c++ - 运行时错误:将无符号偏移添加到 0x603000000040 溢出到 0x603000000034 (stl_vector.h)
- reactjs - 为什么 setState 只更新改变原始状态