python - xpath转义<>中的所有内容,如何解决?刮擦
问题描述
当使用 Scrapy 抓取文本时,在他们使用而不是 . 的字符串中抓取文本时<>
,«»
一切都会丢失。例如"<<Title>> continuation of title"
输出"<> continuation of title"
。使用 xpath 和 css 选择器也会发生同样的情况。
如何告诉程序文本中的这些内容不应被视为 html 并删除?
这是我的选择器代码(类的名称是虚拟的)
item = the_item.css('h3.class::text').get()
item = the_item.xpath('//p[@class="class"]/text()').get()
解决方案
首先修复 HTML:
good_html = bad_html.sub('<<', '<<').sub('>>', '>>')
推荐阅读
- c - C中的数字时钟 - 如何更新秒数?
- python - 使用Python基于键横向或向下打印Excel工作表的重复值
- html - SVG 图像 波浪 动画
- vuejs2 - 开发 Vuejs/Laravel 应用程序。哪一个更适合材料设计?mdbootstrap 还是 Vuetify?
- node.js - 如何在 IIS 上部署 node.js 应用程序和 node.js express 应用程序
- django - 如何部署由本地 Django 服务器提供的 Electron 应用程序?
- kotlin - 在另一个(不相关的)完成后启动一个 RxJava 流
- php - PHP Mailer - 电子邮件内的链接在 IOS 或 Mac OS 上不起作用
- typescript - MODULE_INITIALIZER 类似于延迟加载模块中的 APP_INITIALIZER
- flutter - Flushbar 插件:错误:没有为“FocusScopeNode”类定义方法“attach”