首页 > 解决方案 > BS4:我将如何删除不必要的 html 标签并只保留

标签?

问题描述

我很可能通过使用正则表达式来实现这一点,但我觉得必须有一种更简单的方法来实现这一点。可悲的是,我倾向于使一切变得比应有的更难。

<p><span class="colorL"><ruby>三重県&lt;rt>みえけん</rt></ruby></span>の&lt;span class="colorL"><ruby>伊賀市&lt;rt>いがし&lt;/rt></ruby></span>は、&lt;a class="dicWin" href="javascript:void(0)" id="id-0000"><ruby><span class="under">忍者&lt;/span><rt>にんじゃ</rt></ruby></a>の&lt;a class="dicWin" href="javascript:void(0)" id="id-0001"><span class="under">ふるさと</span></a>だと<ruby>言<rt>い&lt;/rt></ruby>われています。&lt;/p>

标签: pythonpython-3.xweb-scrapingbeautifulsoup

解决方案


像这样:

data = BeautifulSoup(your_html, 'html.parser')
clean_data = (data.find_all('p'),data.find_all('ruby'))
print(clean_data)

要获取这些标签中的内容/文本:

p_text = clean_data.find_all('p').get_text()

让我知道这个是否奏效。


推荐阅读