首页 > 解决方案 > 如何使用正则表达式函数删除所有 html 标签,包括其中的内容,如类名等?

问题描述

例如,我有一个文本文件

<p class="className" style="background-color:black">Hello World</p>

它应该给我一个输出:

Hello World

标签: pythonregex

解决方案


最好使用XML 解析器

import xml.etree.ElementTree as ET

s = '<p class="className" style="background-color:black">Hello World</p>'
root = ET.fromstring(s)
output = root.text

推荐阅读