python - 我可以用 BeautifulSoup 刮下一页吗?
问题描述
我被一个问题困扰了一天。我想抓取有页面的网站。我发现当每个页面都有不同的 url 时,我可以抓取它,
就像 (page=1 . page=2 .. .etc).. 但是我试图抓取的网站,即使我去下一个,它也永远不会改变它的 url页 。有没有办法刮掉这种页面?谢谢!
代码是卷曲到python的结果
import requests
cookies = {
'WMONID': 'smDC5Ku5TeX',
'userId': 'robin9634',
'UID': 'robin9634',
'JSESSIONID': 'lLqLdHFEk4iEJdQ2HCR5m05tg6ZIxBdegEamDzxeEoTClkvqVDN4xzXeMPtTIN3e.cG9ydGFsX2RvbWFpbi9wZDU=',
}
headers = {
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
'Upgrade-Insecure-Requests': '1',
'Origin': 'https://dhlottery.co.kr',
'Content-Type': 'application/x-www-form-urlencoded',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Sec-Fetch-Site': 'same-origin',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-User': '?1',
'Sec-Fetch-Dest': 'document',
'Referer': 'https://dhlottery.co.kr/gameInfo.do?method=powerWinNoList',
'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
}
params = (
('method', 'powerWinNoList'),
)
data = {
'nowPage': '7',
'searchDate': '20200909',
'calendar': '2020-09-09',
'sortType': 'num'
}
response = requests.post('https://dhlottery.co.kr/gameInfo.do', headers=headers, params=params, cookies=cookies, data=data)
#NB. Original query string below. It seems impossible to parse and
#reproduce query strings 100% accurately so the one below is given
#in case the reproduced version is not "correct".
# response = requests.post('https://dhlottery.co.kr/gameInfo.do?method=powerWinNoList', headers=headers, cookies=cookies, data=data)
解决方案
推荐阅读
- google-maps - 使用 URL 在谷歌地图上显示多个地标
- c# - 带有数据源的asp日历在表格上不存在的日期上没有区别
- php - 在 PDO 准备语句中使用 LAST_INSERT_ID 插入多个表
- dart - Flutter中解析的json中的多个对象
- angular - 我想从我的 url 中删除 pages/ 角度 5
- react-native - 当我运行将产品添加到购物车并打开模式时反应本机重定向初始场景
- html - rmarkdown 文件 (.Rmd) 的 html 在浏览器中未正确显示
- javascript - 如何分离功能
- c++ - 测试 double 是否为整数
- c# - 在 Unity 中导致相同实例的两种不同类型