首页 > 解决方案 > 如何删除额外的 XML 标签?

问题描述

我正在尝试从 XML 文件中提取文本。我得到了大部分内容,但仍然有一些标签。

我使用 BeautifulSoup 删除标签,但我仍然有 span 标签。为什么?

from bs4 import BeautifulSoup


f = open(directory+files[4],"r")
soup = BeautifulSoup(f, features="lxml")

for content in soup.findAll([re.compile('us-gaap:.*'), 'span','table','p']):
    print(content.text)

命令行输出

标签: pythonxmlweb-scrapingbeautifulsoup

解决方案


推荐阅读