python - Scrapy crawlspider 在链接提取之前修改 HTML
问题描述
我试图在页面上使用爬虫,但没有成功。LinkExtractor 没有找到任何页面,因此不会挖掘子页面。
我认为我面临的问题在于 HTML 代码,因为它以
<html lang="de" />
更改为
<html lang="de" class = "...">
页面加载后。
似乎有两种方法可以解决这个问题,要么从纯 HTML 中删除反斜杠,要么在链接提取之前加载网站。但我不知道如何做任何这些解决方案。
解决方案
推荐阅读
- vue.js - Vue 单元测试 - 子组件和 i18n
- angular - 为什么nodemon以角度忽略我的/ src文件
- r - 数据帧的变量作为函数的参数
- javascript - 如何获得外部和内部样式(没有内联样式)?
- c# - Time.deltaTime Unity3D 没有正确添加高数字
- ibm-midrange - 将 IBM JVM 与 Python 和 Java 结合使用
- android - Flutter:使用不包含 Bloc 类型的上下文调用 blocprovider.of()
- c# - 图形对象不能引用非静态字段方法或属性
- css - React Ant Design - 将表单项拆分为 2 列
- python - 堆积条形图断开连接