首页 > 解决方案 > 我想爬网,但是有些项目被爬到了,有些项目没有爬到。我不知道原因

问题描述

我在 python 中使用 BeautifulSoup 来抓取一个网站。

虽然addrs,a_earths已被爬取,points = soup.select('.addr_point')但最后此部分无法被爬取。我不知道原因(网页图片中的红色虚线框)

以下是我正在使用的代码块:

import urllib.parse
from bs4 import BeautifulSoup
import re

url = 'http://www.dooinauction.com/auction/ca_list.php'

req = urllib.request.Request(url) #
html = urllib.request.urlopen(req).read()
soup = BeautifulSoup(html, 'html.parser') 

tots = soup.select('div.title_left font') #total
tot = int(re.findall('\d+', tots[0].text)[0]) 
print(f'total : {tot}건')

url = f'http://www.dooinauction.com/auction/ca_list.php?total_record={tot}&search_fm_off=1&search_fm_off=1&start=0'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

addrs = soup.select('.addr')  # crawling OK
a_earths = soup.select('.list_class.bold') #crawling OK
points = soup.select('.addr_point') #crawling NO
print()

网页图片

标签: pythonweb-crawler

解决方案


我浏览了您的网站,似乎看不到 addr_points 部分。我想也许这就是原因。

截屏:

截屏


推荐阅读