首页 > 技术文章 > python 爬虫

dangkai 2018-06-08 10:27 原文

import time
import urllib.request
from bs4 import BeautifulSoup
file = open(r'meituancde.txt', 'w')


def get_url(i):
    url = 'https://www.lagou.com/zhaopin/ceshi/%s/?filterOption=%s' % (i, i)
    return url


def get_html(i):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
    }
    response = urllib.request.Request(url=get_url(i), headers=headers)
    html = urllib.request.urlopen(response).read().decode('utf-8')
    sopu = BeautifulSoup(html,"html.parser")
    return sopu


def parse(i):
    soup = get_html(i)
    me = soup.findAll('', {'class': 'money'})  # 工资
    me1 = soup.findAll('', {'class': 'format-time'})  # 发布时间
    me2 = soup.findAll('', {'class': 'li_b_r'})  # 福利
    me3 = soup.findAll('', {'data-lg-tj-id': '8F00'})  # 公司名字
    meitu = {}
    i = 0
    for title in me:
        meitu['gongzi'] = me[i].text
        for jianjie in me1:
            meitu['发布时间'] = me1[i].text
            for sellum in me2:
                meitu['福利'] = me2[i].text
                for pire in me3:
                    meitu['公司名称'] = me3[i].text
        i += 1
        print(meitu)
        if len(meitu) != 0:
            file.write(str(meitu))
            file.write("\n")
            file.close
if __name__ == '__main__':
    for i in range(1, 31):
        parse(i)

爬去结果:

{'gongzi': '20k-40k', '发布时间': '1天前发布', '福利': '“大数据平台,千万级用户,高并发系统,技术”', '公司名称': '人人行(借贷宝)'}
{'gongzi': '15k-28k', '发布时间': '1天前发布', '福利': '“五险一金,团队分享,友好的同事,地铁周边”', '公司名称': '玖富集团'}
{'gongzi': '12k-24k', '发布时间': '1天前发布', '福利': '“团队协作,技术大牛,办公环境”', '公司名称': '平安好房'}
{'gongzi': '5k-10k', '发布时间': '1天前发布', '福利': '“五险一金,免费住宿,免费班车”', '公司名称': '惠龙易通'}
{'gongzi': '10k-15k', '发布时间': '09:55发布', '福利': '“技术大牛,不打卡,十四薪,六险一金”', '公司名称': '洋钱罐'}
{'gongzi': '5k-10k', '发布时间': '09:57发布', '福利': '“公司前景好 双休 五险一金”', '公司名称': '高达软件'}
{'gongzi': '8k-16k', '发布时间': '09:18发布', '福利': '“发展迅速,全员持股,国外旅游,自由打卡”', '公司名称': '蜂融网络'}
{'gongzi': '10k-15k', '发布时间': '09:01发布', '福利': '“节日礼金,年底奖金,体检旅游,带薪年假”', '公司名称': '江苏亿科达'}
{'gongzi': '6k-12k', '发布时间': '09:39发布', '福利': '“发展空间好,团队氛围好,福利好,敏捷开发”', '公司名称': '达摩网络'}
{'gongzi': '10k-15k', '发布时间': '09:37发布', '福利': '“证券行业,上市公司”', '公司名称': '金证股份'}
{'gongzi': '4k-6k', '发布时间': '08:05发布', '福利': '“周末双休,带薪年假,旅游团建多,发展空间大”', '公司名称': '传影科技'}
{'gongzi': '6k-12k', '发布时间': '09:57发布', '福利': '“各项补贴,年假病假”', '公司名称': '华云数据'}
{'gongzi': '5k-8k', '发布时间': '09:13发布', '福利': '“高成长企业,团队强悍,地铁周边”', '公司名称': 'Udesk-企业级智能客服平台'}
{'gongzi': '10k-13k', '发布时间': '08:33发布', '福利': '“大平台 稳定 轻松”', '公司名称': '上海中软华腾软件系统有限公司'}
{'gongzi': '10k-20k', '发布时间': '1天前发布', '福利': '“五险一金,员工旅游,年底双薪,年底奖金”', '公司名称': 'Trusfort芯盾时代'}
[Finished in 18.8s]

 

 

推荐阅读