首页 > 解决方案 > xpath转义<>中的所有内容,如何解决?刮擦

问题描述

当使用 Scrapy 抓取文本时,在他们使用而不是 . 的字符串中抓取文本<>«»一切都会丢失。例如"<<Title>> continuation of title"输出"<> continuation of title"。使用 xpath 和 css 选择器也会发生同样的情况。

如何告诉程序文本中的这些内容不应被视为 html 并删除?

这是我的选择器代码(类的名称是虚拟的)

item = the_item.css('h3.class::text').get()
item = the_item.xpath('//p[@class="class"]/text()').get()

标签: pythonpython-3.xxpathscrapy

解决方案


首先修复 HTML:

good_html = bad_html.sub('<<', '&lt;&lt;').sub('>>', '&gt;&gt;')

推荐阅读