使用 BeautifulSoup4 标记

,python,beautifulsoup,screen-scraping"/>

首页 > 解决方案 > 如何从中获取文本

使用 BeautifulSoup4 标记

问题描述

我正在抓取一些网页并尝试从所有人中获取简单的文本

<p> </p>

标签。在一个特定的例子中,我遇到了一个带有类的“p”标签:

<p class="SimpleBlock-module_p__Q3azD "> Some text here. </p>

现在使用一个简单的:

Text = soup.findAll("p")

结果是:

Text = SimpleBlock-module_p__Q3azD  Some text here.

如何只获取上面 Text 中不包括类名的文本部分。

我想要一个通用的解决方案,无论“p”标签中是否有一个类,它都应该适用于所有情况。

我在 Windows 10 上使用 Python3、请求和 BeautifulSoup4。

标签: pythonbeautifulsoupscreen-scraping

解决方案


在 BeautifulSoup 4 中,findAll不再存在 (bs3) 并被替换为find_all

find_all给出了一个列表,因此在您的示例中,您应该使用以下方式访问它:

Text[0].string

推荐阅读