python - 刮擦警告后超出 URL 限制
问题描述
当scrapy spider完成时我得到了这个,并且程序正在使用将数据写入excel文件,但是,在警告中它说我不使用,这个问题的原因是因为一些数据不是写了,被跳过了。这是代码清单:openpyxl
xlsxwriter
xlsx.writer
import scrapy,csv,requests
import re,json
from openpyxl import Workbook
import numpy as np
import pandas as pd
from json.decoder import JSONDecodeError
from openpyxl.utils.dataframe import dataframe_to_rows
#spidercode
df = pd.DataFrame(spider.list_of_items)
df.to_excel("{}.xlsx".format(file_name))
2019-05-16 10:50:07 [scrapy.core.engine] INFO: Spider closed (finished)
2019-05-16 10:50:15 [py.warnings] WARNING: C:\Users\test\AppData\Local\Programs\Python\Python37-32\lib\site-packages\xlsxwriter\worksheet.py:915:
UserWarning: Ignoring URL 'https://www.target.com/p/nfl-indianapolis-colts-northwest-draft-full-queen-comforter-set/-/A-53033602?ref=tgt_soc_0000059195_pd&afid=pin_ao&cpng=DR_PSA_Sports&fndsrc=bcm&campaignid=626738629371&adgroupid=2680061765888&product_partition_id=2954942580838&device=m&pp=1'
with link or location/anchor > 255 characters since it exceeds Excel's limit for URLs force_unicode(url))
我想要的是对此的修复或在没有 URL 的情况下编写该行的方法,如果此警告恰好至少获得该行的其余部分。
解决方案
您的网址(266 个符号):'https://www.target.com/p/nfl-indianapolis-colts-northwest-draft-full-queen-comforter-set/-/A-53033602?ref=tgt_soc_0000059195_pd&afid=pin_ao&cpng=DR_PSA_Sports&fndsrc=bcm&campaignid=626738629371&adgroupid=2680061765888&product_partition_id=2954942580838&device=m&pp=1'
由两部分组成:
- 实际网址(101 个符号):
https://www.target.com/p/nfl-indianapolis-colts-northwest-draft-full-queen-comforter-set/-/A-53033602
- 它是查询参数(
?
在 url 中的符号之后):
ref=tgt_soc_0000059195_pd afid=pin_ao&cpng=DR_PSA_Sports fndsrc=bcm campaignid=626738629371 adgroupid=2680061765888 product_partition_id=2954942580838 device=m pp=1
如果查询参数数据没有任何实际价值 - 您可以简单地将其从原始 url 中删除并避免 excel 255 符号链接限制:
....
#your spidercode
for item in spider.list_of_items:
#url = item[url_index] # if each item is a list or tuple
#url = item[url] # if each item is a dict
if "?" in url:
url = url.split("?")[0]
df = pd.DataFrame(spider.list_of_items)
df.to_excel("{}.xlsx".format(file_name))
推荐阅读
- c# - 通过值更改触发事件 (
- python - 我想将一个表单的实例传递给另一个表单。我怎样才能做到这一点?
- python - 检查文本是否存在 2 个或多个用括号括起来的字符或数字,至少第一个字符为大写
- swift - 如果视图相同,则 TabView 生命周期问题
- javascript - Shortest Job First (Non preemptive) - 同时排序突发时间和到达时间
- javascript - 错误:无法获取 /
- javascript - Javascript html表格单元格编辑没有正确发生
- c - 将多个管道连接在一起时遇到问题
- algorithm - k-way归并排序基本情况
- javascript - 为什么 jQuery ui 可选插件禁用了我原来的绑定点击功能