首页 > 解决方案 > Scrapy crawlspider 在链接提取之前修改 HTML

问题描述

我试图在页面上使用爬虫,但没有成功。LinkExtractor 没有找到任何页面,因此不会挖掘子页面。

我认为我面临的问题在于 HTML 代码,因为它以

<html lang="de" />

更改为

<html lang="de" class = "...">

页面加载后。

似乎有两种方法可以解决这个问题,要么从纯 HTML 中删除反斜杠,要么在链接提取之前加载网站。但我不知道如何做任何这些解决方案。

标签: pythonweb-scrapingscrapy

解决方案


推荐阅读