首页 > 解决方案 > 用 Scrapy 刮掉专利.google 失败

问题描述

我正在尝试用Scrapy刮这个页面的主标题:https : //patents.google.com/patent/CN102093389B/en(“双链氧桥杂环阿那巴辛化合物及其制备方法”),这是不可能的. 我正在尝试用 css 提取它。puppeteer 中的相同 css 选择器可以正常工作并提取主标题,但在 Scrapy 中给出无。写的代码是这样的

import scrapy

class GooglepatentsspiderSpider(scrapy.Spider):
    name = 'googlePatentsSpider'
    allowed_domains = ['patents.google.com']
    start_urls = ['https://patents.google.com/patent/CN102093389B/en']

    def parse(self, response):
        title = response.css('h1#title::text').get()

        yield {
            'title': title
        }

标签: pythonscrapy

解决方案


您的 css 路径不正确。尝试这个, response.css('span[itemprop="title"]::text').get()


推荐阅读