首页 > 解决方案 > WebScraping Requests Status 给了我 200 没有内容

问题描述

我正在用 BeautifulSoup 练习刮擦。在 Daijob 寻找数据分析工作时,我想抓取所有结果。有 70 个结果分为 7 页,每页 10 个结果。

website = 'https://www.daijob.com/en/jobs/search_result?job_search_form_hidden=1&keywords=Data+Analyst'

for page in range(20):

        time.sleep(1)

        r = requests.get(website, params = {"page" : page+1})
        if r.status_code != 200:
            break
        else:
            html = r.content
            soup = BeautifulSoup(html, "lxml")
            print('\033[1m' + 'Web 1, page {0}'.format(page+1) + '\033[0m')

所以想法是页数会不断增加,当页码变为 8 时,循环将停止。

自从 status_code 值变为 410 而不是 200 后,它已在其他网站上运行,一旦它达到没有数据的页码。

但是在这种情况下,无论您放置多少页(甚至可以是 100000),它都会一直提供 200 的 status_code,因此即使没有更多有用的数据可以抓取,我也无法停止循环。

是否有更有效的方法来自动停止该循环?谢谢!!

标签: pythonweb-scrapingbeautifulsouppython-requestshttp-status-codes

解决方案


当没有找到工作时,网站会显示此消息:No jobs were found that matched your search.您可以使用它来确定页面是否包含任何工作。这是完整的代码:

import time
import requests
from bs4 import BeautifulSoup

website = 'https://www.daijob.com/en/jobs/search_result?job_search_form_hidden=1&keywords=Data+Analyst'

page = 0

while True:

        time.sleep(1)

        r = requests.get(website, params = {"page" : page+1})
        if 'No jobs were found that matched your search.' in r.text:
            break
        else:
            html = r.content
            soup = BeautifulSoup(html, "lxml")
            print('\033[1m' + 'Web 1, page {0}'.format(page+1) + '\033[0m')
            page += 1

输出:

Web 1, page 1
Web 1, page 2
Web 1, page 3
Web 1, page 4
Web 1, page 5

推荐阅读