首页 > 解决方案 > 我可以抓取网站以识别其下的标题和文本吗?

问题描述

我想创建一个网络爬虫,以便它识别网页上与之相关的标题和文本。任何人都可以帮助如何做到这一点?

演示图片

例如,在所附图片中,“先决条件”是标题,下面的文本是“对应文本”。

标签: pythonseleniumweb-scraping

解决方案


您应该使用 python and BeautifulSoup,这是一个为网络抓取而设计的库。

request对于给定的 url,您可以使用以下方式提取页面的实际内容:

import requests
from bs4 import BeautifulSoup

response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

获得对象汤后,您可以通过以下方式找到所有标题:

headings = list()

for i in range(1, 7):
    # <h1> to <h6>
    headings.extend(soup.findAll(f'h{i}'))

headings现在包含从 h1 到 h6 的所有标题。现在要提取文本,您只需执行以下操作:

text_content = soup.text

推荐阅读