python - 文件下载器和格式名称的 Scrapy 问题
问题描述
我是scrapy的新手
第一步,程序连接数据库,返回Pandas DataFrame(DataFrame有300多行3列)内的程序名称、日期和链接参数。
使用 f 字符串创建链接,下载器开始下载这些链接
我希望在读取链接时在循环内的同一个表中读取文件名列,并使用所需的名称和日期保存文件
例如:Data = pandas DataFrame 包括:
网址:www.xyz.com,名称:abc,日期:2020/01/01
我想知道如何将文件保存为 abc.2020/01/01
蜘蛛代码:
import scrapy
from Data import connector_15
from ..items import CoscrapyItem
class FirstSpider(scrapy.Spider):
name = 'first'
start_urls = []
def parse(self, response):
links = []
names = []
item = CoscrapyItem()
Data = connector_15()
for i in Data["PdfUrl"]:
links.append(f"""https://www.aaa.ir/{i}""")
file_urls = links
item['file_urls'] = file_urls
yield item
商品代码:
import scrapy
class CodalscrapyItem(scrapy.Item):
file_urls = scrapy.Field()
files = scrapy.Field()
解决方案
推荐阅读
- c# - UWP 应用无法在“BluetoothCacheMode.Uncached”模式下工作,只能在“BluetoothCacheMode.Cached”模式下工作,为什么?
- javascript - 返回内部的Javascript if语句
- react-native - React Native - “您当前正在使用 NODE_ENV 之外的缩小代码 === “生产” “
- c++ - 输出之前给出字符串的输入以查找回文
- javascript - 使用 httr 包中的 Post() 在 R 中捕获 href
- docker - 当从 linux 样式路径转换时,Docker 安装的卷将 ;C 添加到 Windows 路径的末尾
- sas - 您能在 SAS EG 中命名报告吗?
- c - 通过指向其成员的指针获取指向结构的指针
- php - 如何从第二个或第三个字符串分隔符爆炸回字符串?
- python - 用于匹配顺序无关紧要的相邻单词的正则表达式