首页 > 解决方案 > 文件下载器和格式名称的 Scrapy 问题

问题描述

我是scrapy的新手

第一步,程序连接数据库,返回Pandas DataFrame(DataFrame有300多行3列)内的程序名称、日期和链接参数。

使用 f 字符串创建链接,下载器开始下载这些链接

我希望在读取链接时在循环内的同一个表中读取文件名列,并使用所需的名称和日期保存文件

例如:Data = pandas DataFrame 包括:

网址:www.xyz.com,名称:abc,日期:2020/01/01

我想知道如何将文件保存为 abc.2020/01/01

蜘蛛代码:

import scrapy


from Data import connector_15


from ..items import CoscrapyItem


class FirstSpider(scrapy.Spider):
    


name = 'first'
    

start_urls = []

    def parse(self, response):
        links = []
        names = []
        item = CoscrapyItem()
        Data = connector_15()

        for i in Data["PdfUrl"]:
            links.append(f"""https://www.aaa.ir/{i}""")
        

        file_urls = links

        item['file_urls'] = file_urls

        yield item

商品代码:

import scrapy


class CodalscrapyItem(scrapy.Item):


    file_urls = scrapy.Field()


    files = scrapy.Field()

标签: pythonweb-scrapingscrapyweb-crawlerdata-collection

解决方案


推荐阅读