python - 如何遍历 HTML 文件中的元素
问题描述
这是我正在查看的页面:https ://www.nytimes.com/topic/destination/russia
我已经导入 BeautifulSoup 和请求。我想创建一个包含此页面所有标题的文本文件。我可以得到其中一个,使用
from bs4 import BeautifulSoup
import requests
source = requests.get('https://www.nytimes.com/topic/destination/russia').text
soup = BeautifulSoup(source, 'lxml')
headline = soup.find('h2').get_text()
print(headline)
产生:
When an Oil Price War Meets Coronavirus Fears, Markets Get Punched in the Face
都好。但是,我完全不知道如何遍历和收集页面中的所有标题。任何帮助,将不胜感激。
解决方案
尝试:
for headline in soup.find_all('h2'):
print(healdine.get_text())
将find_all
所有<h2>
标签作为列表返回。现在遍历它。
推荐阅读
- python - 根据近似匹配或公式在熊猫中查找重复行
- sql - Redshift:我尝试使用 Union,但它返回 3 列而不是 4 列。我该怎么办?
- r - 基于R中的条件循环和连接
- node.js - 我想找到存储在我的数据库中的所有文件和这封信
- python - TypeError:to_frame() 得到了一个意外的关键字参数“索引”
- google-apps-script - 使用 Arrayformula 在 Google 表格中为团队创建动态任务列表
- python - 如何将所需格式的字典转换为指定的 Json 格式,如下所示的键值对?
- loops - 在数据框中打印循环的结果
- .net - 根据环境更改 WCF 服务的 WSDL
- java - 可以询问您“是否要关闭它”的退出按钮?