html - 如何从 p 或 div 中抓取文本,输出给出一个空列表或无
问题描述
我正在尝试从cricbuzz 页面的以下链接的亮点和完整评论部分中抓取文本。在尝试了几天后,文本只是没有出现。抱歉,我是初学者,我对网页抓取知之甚少。
我已经尝试了其他一些部分,并且能够从它们中抓取文本和表格,但是这个部分有标签或可点击的文本数据,我不知道如何为这个特定页面抓取。以下是我到目前为止的亮点部分的代码:
代码:
from urllib.request import urlopen as req
from bs4 import BeautifulSoup as soup
my_url = "https://www.cricbuzz.com/cricket-match-highlights/20567/ausw-vs-nzw-10th-match-group-b-icc-womens-world-t20-2018"
uclient = req(my_url)
page_html = uclient.read()
uclient.close()
page_soup = soup(page_html, "html.parser")
highlights = page_soup.find_all("div",{"class":"cb-col cb-col-67 cb nws-lft-col"})
for highlight in highlights:
text_highlight = highlights.text
print(text_highlight)
解决方案
推荐阅读
- python - 我想知道如何将带有值列表的字典映射到数据框
- spring-boot - 尝试使用 Tomcat 在 Docker 中将 Springboot 应用程序作为 war 文件运行时出现问题
- sbt - SBT 1.5.5 在使用 -mem 选项运行测试时出错
- python - pip:没有为检测器2找到匹配的分布
- nginx - 将 2 个 url (%20) 重定向到 nginx 中的一个
- angular - ChartJs:删除两点之间的线
- r - 仅选择具有子组且都具有观察值的组
- ios - 如何自定义 iOS/tvOS 中提供的 PiP 的 UI?
- sql - Postgres 转置一行
- azure - 将 Azure IoT 数据发送到 azure gen2