首页 > 解决方案 > 我们可以在相同的代码中编写另一个解析方法来解析来自新生成的 url 的数据......?

问题描述

这是我的解析方法,它为我提供了 URL 列表,但在解析函数中,我想从我生成的另一个名为 parse_url 的 url 中提取数据?怎么做...?我对scrapy很陌生...请帮助我

def parse(self, response):
    base_url = "https://indiankanoon.org/"
    urlList=response.xpath('//div[@class="result_title"]/a/@href').extract()
    print("*********************Inside parse********************")
    time.sleep(5)
    for url in urlList:
    sepList = url.split('/')
    parse_url =base_url + 'doc' + '/' + sepList[2] + '/'
    fname=sepList[2]
    print('New Urls : {}\n The saved file name : {}.json'.format(parse_url, fname))

    for quote in response.css('div.judgments'):
        with open('datafile.json','w') as jfile:
            jfile.write(json.dumps({
                'Court': quote.css('div.docsource_main::text').extract(),
                'title': 'quote.xpath("//div[@class='judgments']/div[@class='doc_title']/text()").extract_first(),
                'subTitle': quote.css("div.judgments::text").extract_first(),
                'P_tags': quote.xpath("//div[@class='judgments']/p/text()").extract(),
                'Pre_tags': quote.xpath("//div[@class='judgments']/pre/text()").extract(),
                'blocked_quote': quote.xpath("//div[@class='judgments']/blockquote").extract()

                }))

enter code here

标签: python-2.7scrapyscrapy-spider

解决方案


您可以scrapy.Request(parse_url, callback=self.parse_result)按照此处所述使用。parse_result在获得可以继续抓取的新响应后调用。


推荐阅读