首页 > 解决方案 > 如何遍历 HTML 文件中的元素

问题描述

这是我正在查看的页面:https ://www.nytimes.com/topic/destination/russia

我已经导入 BeautifulSoup 和请求。我想创建一个包含此页面所有标题的文本文件。我可以得到其中一个,使用

from bs4 import BeautifulSoup
import requests
source = requests.get('https://www.nytimes.com/topic/destination/russia').text
soup = BeautifulSoup(source, 'lxml')
headline = soup.find('h2').get_text()
print(headline)

产生:

When an Oil Price War Meets Coronavirus Fears, Markets Get Punched in the Face

都好。但是,我完全不知道如何遍历和收集页面中的所有标题。任何帮助,将不胜感激。

标签: pythonhtmlweb-scraping

解决方案


尝试:

for headline in soup.find_all('h2'):
    print(healdine.get_text())

find_all所有<h2>标签作为列表返回。现在遍历它。


推荐阅读