首页 > 解决方案 > 使用 beautifulSoup 检索 html 标签内容

问题描述

我正在尝试使用 python 获取网站文章的纯文本。我听说过 BeautifulSoup 库,但是如何检索 html 页面中的特定标签?

这就是我所做的:

base_url = 'http://www.nytimes.com'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, "html.parser")

标签: pythonbeautifulsouppython-requests

解决方案


看看这个:

import bs4 as bs
import requests as rq

html = rq.get('site.com')

s = bs.BeautifulSoup(html.text, features="html.parser")
div = s.find('div', {'class': 'yourclass'}) # or id

print(str(div.text)) # print text

推荐阅读