首页 > 解决方案 > Python 中的网络爬虫:查找标签值

问题描述

我必须开发一个 Python 爬虫,但我几乎不懂这种语言,所以我遇到了很多麻烦。我得到了这个模型:

import scrapy

class QuotesSpider (scrapy.Spider):

    name = 'quotes'
    start_urls = [
        'https://www.qconcursos.com/questoes-de-concursos/questoes'
    ]
    download_delay = 1.5

    def parse (self, response):
        for quote in response.css ('. q-question-body'):
            yield {
                'questions': quote.css ('. q-question-enunciation span :: text'). extract_first (),
                'answers': quote.css ('. q-item-enum :: text'). extract_first (),
    
            }
        link_next = response.css ('a.q-next a :: attr ("href")'). extract_first ()
        if link_next:
            yield scrapy.Request (response.urljoin (link_next))

这是生成这个.csv:http ://cnessimples.com.br/arquivos/arquivo.csv

从该网址:https ://www.qconcursos.com/questoes-de-concursos/questoes

我需要在网站的每个页面上获取每个问题的问题和答案。我不知道如何在 Python 中做到这一点!如果您能帮助我,我将不胜感激。

PS:代码工作正常,只是工作不正常。结果可以在 .csv 文件中看到。我需要问题和每个问题的所有答案。在每一页上。

标签: pythonweb-crawler

解决方案


推荐阅读