python - 用 Scrapy 刮掉专利.google 失败
问题描述
我正在尝试用Scrapy刮这个页面的主标题:https : //patents.google.com/patent/CN102093389B/en(“双链氧桥杂环阿那巴辛化合物及其制备方法”),这是不可能的. 我正在尝试用 css 提取它。puppeteer 中的相同 css 选择器可以正常工作并提取主标题,但在 Scrapy 中给出无。写的代码是这样的
import scrapy
class GooglepatentsspiderSpider(scrapy.Spider):
name = 'googlePatentsSpider'
allowed_domains = ['patents.google.com']
start_urls = ['https://patents.google.com/patent/CN102093389B/en']
def parse(self, response):
title = response.css('h1#title::text').get()
yield {
'title': title
}
解决方案
您的 css 路径不正确。尝试这个, response.css('span[itemprop="title"]::text').get()
推荐阅读
- python-2.7 - 如何添加缺少的 c 库以在 cygwin 中安装 lxml?
- node.js - 在 Netlify AWS lambda 函数中包含模块
- grafana - 如何在 grafana 仪表板中组合标签列表
- node.js - 如何下载使用 telegraf 模块发送到我的电报机器人的文件或照片?
- qt - 为什么 QGridLayout setRowStretch 不兑现
- r - 在ggplot中将线分配给第二个y轴
- intellij-idea - Intellij Idea 查找项目中所有已弃用的用法
- angular6 - 导航前隐藏烤面包机通知
- facebook - facebook 观众网络总是质量检查失败
- yocto - 如何清洁、释放空间?