python - 为什么scrapy为“Title”项目返回None?
问题描述
我正在尝试抓取https://www.jobs.ch/de/stellenangebote/administration-hr-consulting-ceo/,我目前被卡住了,因为scrapy为“Title”项目返回 None ,这是工作名称. css 选择器在 shell 中工作正常,其他项目也工作。我尝试更改选择器或添加延迟,但似乎没有任何效果。有人有想法吗?代码如下。
import scrapy
from jobscraping.items import JobscrapingItem
class GetdataSpider(scrapy.Spider):
name = 'getdata2'
start_urls = ['https://www.jobs.ch/de/stellenangebote/administration-hr-consulting-ceo/']
def parse(self, response):
for add in response.css('div.sc-AxiKw.VacancySerpItem__ShadowBox-qr45cp-0.hqhfbd'):
item = JobscrapingItem()
addpage = response.urljoin(add.css('div.sc-AxiKw.VacancySerpItem__ShadowBox-qr45cp-0.hqhfbd a::attr(href)').get())
item['link'] = addpage
request = scrapy.Request(addpage, callback=self.get_addinfos)
request.meta['item'] = item
yield request
def get_addinfos(self, response):
item = response.meta['item']
item['Title'] = response.css('.sc-AxhUy.Text__h2-jiiyzm-1.eBKnmN.sc-fzqNJr.Text__span-jiiyzm-8.Text-jiiyzm-9.iNTZsv::text').get()
item['Company'] = response.css('span.sc-fzqNJr.Text__span-jiiyzm-8.kGLBca.sc-fzqNJr.Text__span-jiiyzm-8.Text-jiiyzm-9.kjfvVS::text').get()
item['Location'] = response.css('span.sc-fzqNJr.Text__span-jiiyzm-8.kGLBca.sc-fzqNJr.Text__span-jiiyzm-8.Text-jiiyzm-9.WBPTt::text').getall()
yield item
这是 items.py 文件:
import scrapy
class JobscrapingItem(scrapy.Item):
# define the fields for your item here like:
link = scrapy.Field()
Title = scrapy.Field()
Company = scrapy.Field()
Location = scrapy.Field()
解决方案
您正在使用更复杂的 CSS 选择器。请记住,您不必总是使用类或 id。Yuo 可以使用其他属性,例如在这种情况下data-cy="vacancy-title"
似乎很完美。
item['Title'] = response.css('h1[data-cy="vacancy-title"]::text').get()
应该管用。如果出现问题,以后调试和更改非常简单。
推荐阅读
- python - 在 Python 中重构 JSON 对象的有效方法
- mysql-connector - 未创建表,即使在验证表存在之后也是如此
- c - 检查 Fortran 调用 C 函数中的 ISO_C_BINDING 用法
- java - Spark 中的分区是什么?
- apache-spark - 需要使用 spark 数据框从查找文件中获取具有计算值的字段
- json - 如何在 JSON 中有两个小于 10 的字符整数?
- java - 获取本地日期和时间 GMT+8
- bash - 如何通过 cURL 从 openvpn-as 下载 ovpn 文件
- reactjs - 如何访问地图函数之外的变量?
- laravel - Laravel 在一个应用程序中使用多个子域