python - 我想爬网,但是有些项目被爬到了,有些项目没有爬到。我不知道原因
问题描述
我在 python 中使用 BeautifulSoup 来抓取一个网站。
虽然addrs
,a_earths
已被爬取,points = soup.select('.addr_point')
但最后此部分无法被爬取。我不知道原因(网页图片中的红色虚线框)
以下是我正在使用的代码块:
import urllib.parse
from bs4 import BeautifulSoup
import re
url = 'http://www.dooinauction.com/auction/ca_list.php'
req = urllib.request.Request(url) #
html = urllib.request.urlopen(req).read()
soup = BeautifulSoup(html, 'html.parser')
tots = soup.select('div.title_left font') #total
tot = int(re.findall('\d+', tots[0].text)[0])
print(f'total : {tot}건')
url = f'http://www.dooinauction.com/auction/ca_list.php?total_record={tot}&search_fm_off=1&search_fm_off=1&start=0'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')
addrs = soup.select('.addr') # crawling OK
a_earths = soup.select('.list_class.bold') #crawling OK
points = soup.select('.addr_point') #crawling NO
print()
解决方案
我浏览了您的网站,似乎看不到 addr_points 部分。我想也许这就是原因。
截屏:
推荐阅读
- python - 如何用逗号分隔数字?
- html - Wordpress:限制 *|RSSITEM:CONTENT|* 合并标签中包含的 html
- c# - Outlook HTMLBody 拒绝输出我指定的字体大小,无论值如何
- winforms - Cefsharp 对 Load 方法的连续调用
- angular7 - Ionic 4将生成的页面放在页面文件夹之外
- c# - 在 Unity 中使对象沿随机方向移动
- python - 是否可以从 Flutter 应用程序运行 Python 方法?
- apache - .htaccess 在被屏蔽的域上重定向,仅在使用特定域时才生效
- node.js - 来自原点“clientUrl”已被 CORS 策略阻止:请求的资源上不存在“Access-Control-Allow-Origin”标头
- javascript - 导入有效,但为什么要求不起作用?