python - Web Scraping 时我无法获取所有数据
问题描述
我正在尝试通过网络抓取此 URL = https://www.ventanillaunicaenfermeria.es/BuscarColegiados.php。我需要收集“N°cole”的值。列和“Nombre Colegiado”列。
我正在使用 BeautifulSoup,但我只得到“N°cole”的值。柱子。我该如何解决?
谢谢!
这是我的代码:
from requests import get
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
page = requests.get('https://www.ventanillaunicaenfermeria.es/BuscarColegiados.php')
soup = BeautifulSoup(page.text, 'html.parser')
data = soup.find_all("span",{'class':'colColegiado'})
numero_col = []
for i in data:
data_num = i.text.strip()
numero_col.append(data_num)
numero_col
['Nº cole.',
'6478',
'13107',
'7341',
'12110',
'5625',
'4877',
'4700',
'9126',
'8444',
'13120',
'5023',
'12235',
'7747',
'17701',
'17391',
'17944',
'17772',
'7230',
'11729',
'17275']
解决方案
您当前正在从错误的 html 元素中获取值 - 它应该来自该类的所有<p>
s resalto
。
import requests
from bs4 import BeautifulSoup
#import pandas as pd
#import numpy as np
page = requests.get('https://www.ventanillaunicaenfermeria.es/BuscarColegiados.php')
soup = BeautifulSoup(page.text, 'html.parser')
data = soup.find_all("p",{'class':'resalto'})
schools = []
for result in data:
data_num = result.contents[0].text.strip()
#numero_col.append(data_num)
data_name = str(result.contents[1])
schools.append((data_num,data_name))
print(schools)
推荐阅读
- css - nth-child 选择器在媒体查询中不起作用
- javascript - 如何使动态可折叠
- reactjs - 我可以在 VSCode 中实时预览 React 组件吗?
- c# - Azure 容器中的 Docker 映像部署在 appSettings 中指定 kafka Ssl 位置
- c# - C# 解析 DateTime 无法将字符串转换为 DateTime
- c - C 浮点异常错误。. . 关于计算读者等级水平的公式
- powershell - 日期时间格式在 ISE 和 Windows 窗体中的显示方式不同
- nginx - 我正在尝试使用 Kubernetes ReplicationController 托管 nginx。发布成功托管,但无法通过主机系统访问
- c# - BackgroundWorker - 使用“子任务”报告进度
- c++ - 如何正确使用标志控制循环,以便仅执行一次特定任务?