python - 在 Scrapy 中从数字中去除逗号
问题描述
所以,我正在做一个学校项目,使用 Scrapy 将数据提取到 CSV 文件中。网站上的数据有逗号,但我想从数字中去掉逗号,因为我要提取的某些行有三个数字,并且使用逗号,数据都被扭曲了。
可以在下面的黄色图像中看到逗号已被删除,但在逗号仍然存在的粉红色突出显示中。
似乎在使用替换功能时,它适用于某些行,但不适用于其他行。无法弄清楚我哪里出错了。这是我的代码:
# -*- coding: utf-8 -*-
import scrapy
class PsaSpider(scrapy.Spider):
name = 'psa'
allowed_domains = ['psacard.com']
start_urls = ['https://www.psacard.com/pop/t206/']
def parse(self, response):
rows = response.css('table.pop-grid tbody tr')
for row in rows:
yield {
'name' : row.css('td')[0].css('span.t206-pop-title::text').extract_first(default='').strip(),
'variety' : row.css('td')[0].css('span.variety::text').extract_first(default='').strip(),
'auth' : [x.strip().replace(',','') for x in row.xpath('td[3]//text()').extract()],
'psa1': [x.strip().replace(',','') for x in row.xpath('td[4]//text()').extract()],
'psa1.5': [x.strip().replace(',','') for x in row.xpath('td[5]//text()').extract()],
'psa2': [x.strip().replace(',','') for x in row.xpath('td[6]//text()').extract()],
'psa3': [x.strip().replace(',','') for x in row.xpath('td[7]//text()').extract()],
'psa4': [x.strip().replace(',','') for x in row.xpath('td[8]//text()').extract()],
'psa5': [x.strip().replace(',','') for x in row.xpath('td[9]//text()').extract()],
'psa6': [x.strip().replace(',','') for x in row.xpath('td[10]//text()').extract()],
'psa7': [x.strip().replace(',','') for x in row.xpath('td[11]//text()').extract()],
'psa8': [x.strip().replace(',','') for x in row.xpath('td[12]//text()').extract()],
'psa9': [x.strip().replace(',','') for x in row.xpath('td[13]//text()').extract()],
'psa10': [x.strip().replace(',','') for x in row.xpath('td[14]//text()').extract()],
}
解决方案
你确定逗号?我认为您在这里的破折号有问题。尝试这样的事情:
def parse(self, response):
def strip_second(sel, xpath):
return sum([int(x.strip().replace(',', '')) for x in sel.xpath(xpath).extract() if u'-' not in x])
def strip_first(sel, css):
return sel.css(css).get('').strip()
rows = response.css('table.pop-grid tbody tr')
for row in rows:
td = row.css('td')[0]
yield {
'name': strip_first(td, 'span.t206-pop-title::text'),
'variety': strip_first(td, 'span.variety::text'),
'auth': strip_second(row, 'td[3]//text()'),
'psa1': strip_second(row, 'td[4]//text()'),
'psa1.5': strip_second(row, 'td[5]//text()'),
'psa2': strip_second(row, 'td[6]//text()'),
'psa3': strip_second(row, 'td[7]//text()'),
'psa4': strip_second(row, 'td[8]//text()'),
'psa5': strip_second(row, 'td[9]//text()'),
'psa6': strip_second(row, 'td[10]//text()'),
'psa7': strip_second(row, 'td[11]//text()'),
'psa8': strip_second(row, 'td[12]//text()'),
'psa9': strip_second(row, 'td[13]//text()'),
'psa10': strip_second(row, 'td[14]//text()'),
}
输出示例为:
{'psa1.5': [u'0', u'0'], 'auth': [u'2'], 'psa10': [u'0'], 'psa9': [u'0', u'0'], 'psa8': [u'0', u'0', u'0'], 'name': u'Wheat, Zack', 'variety': '', 'psa4': [u'0', u'0', u'0'], 'psa5': [u'0', u'1', u'0'], 'psa6': [u'0', u'0', u'0'], 'psa7': [u'0', u'0', u'0'], 'psa1': [u'0', u'0'], 'psa2': [u'0', u'0', u'0'], 'psa3': [u'0', u'0', u'0']}
推荐阅读
- codeigniter - 使用 composer 时出错 require-dev.mikey179/vfsStream is invalid
- javascript - 带有客户 ID 的条带结帐重定向
- flutter - 如何在构建方法颤动中访问共享首选项字符串
- tensorflow - TensorFlow 没有检测到我的 GPU。我该怎么办(2021 年 5 月)?
- c# - WPF 中的 ListViewItem 样式
- javascript - 在获取 POST 时处理 response.status 的最佳方法
- sql - Oracle SQL 连接错误
- r - 我们可以通过 R 命令从字符变量中删除逗号吗?
- android - 在制作 Android 发布版本时收到 gradle 警告 - AGPBI: Class missing
- php - 如何选择一个没有嵌套标签的href标签