python - 单击 Scrapy-Splash 中的按钮
问题描述
我正在写一个scrapy-splash程序,我需要点击网页上的显示按钮,如下图所示,为了显示数据,第10版,所以我可以抓取它。我有我在下面尝试过的代码,但它不起作用。只有单击显示按钮才能访问我需要的信息。 更新:仍在为此苦苦挣扎,我必须相信有办法做到这一点。我不想抓取 JSON,因为这对网站所有者来说可能是一个危险信号。
import scrapy
from ..items import NameItem
class LoginSpider(scrapy.Spider):
name = "LoginSpider"
start_urls = ["http://www.starcitygames.com/buylist/"]
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formcss='#existing_users form',
formdata={'ex_usr_email': 'email123@example.com', 'ex_usr_pass': 'password123'},
callback=self.after_login
)
def after_login(self, response):
item = NameItem()
display_button= response.xpath('//a[contains(., "- Display>>")]/@href').get()
response.follow(display_button, self.parse)
item["Name"] = response.css("div.bl-result-title::text").get()
return item
解决方案
您的代码无法工作,因为没有锚元素和 href 属性。单击该按钮将发送一个XMLHttpRequest
to http://www.starcitygames.com/buylist/search?search-type=category&id=5061
,并且在 JSON 响应中找到您想要的数据。
- 要检查请求 URL 和响应,请打开 Dev Tools -> Network -> XHR 并单击
Display
。 - 在
Headers
选项卡中,您将找到请求 URL,在Preview
或Response
选项卡中您可以检查 JSON。 - 如您所见,您需要一个类别
id
来构建请求 URL。您可以通过解析script
使用此 XPath 找到的元素来找到它//script[contains(., "categories")]
- 然后您可以将您的请求从蜘蛛发送到
http://www.starcitygames.com/buylist/search?search-type=category&id=5061
并获取您想要的数据。
$ curl 'http://www.starcitygames.com/buylist/search?search-type=category&id=5061'
{"ok":true,"search":"10th Edition","results":[[{"id":"46269","name":"Abundance","subtitle":null,"condition":"NM\/M","foil":true,"is_parent":false,"language":"English","price":"20.000","rarity":"Rare","image":"cardscans\/MTG\/10E\/en\/foil\/Abundance.jpg"},{"id":"176986","name":"Abundance","subtitle":null,"condition":"PL","foil":true,"is_parent":false,"language":"English","price":"12.000","rarity":"Rare","image":"cardscans\/MTG\/10E\/en\/foil\/Abundance.jpg"}....
如您所见,您甚至不需要登录网站或Splash
.
推荐阅读
- python - pandas 重新采样嵌套的 ohlc 数据
- php - 在 CRUD 项目中为文件上传功能创建新目录时出错
- azure - 如何在 Azure Data Flows Open Expression Builder 中返回二维数组中的值?
- join - Tableau Desktop:将一个数据源中的三个字段以包含性方式再次连接到另一个数据源中的一个字段
- c++ - 串行端口在 ubuntu 20.04 上变得无响应,但在 18.04 上工作
- amazon-s3 - s3-cloudformation-template.json 上的本地更改在放大推送时被覆盖
- maven - Maven 依赖管理正在导入错误的版本
- html - flex box 使项目自身的宽度为 100%
- vba - 我的 MSXML2 代码在 24 后无法工作。循环
- javascript - 改变数组对象的状态 - reactjs