python - scrapy登录后怎么爬?
问题描述
我目前正在尝试在登录后抓取电子商务网站,但似乎我做错了什么,因为scrapy它唯一的抓取(控制台中没有日志信息)
class InsSpider(scrapy.Spider):
name = 'loginin'
allowed_domains = ['examplesite.com.ar']
url = 'http://www.examplesite.com.ar'
url_login = 'http://www.examplesite.com.ar/account'
def start_requests(self):
return [Request(self.url_login, callback=self.login)]
def login(self, response):
login_post = {'username': 'user',
'password': 'pass'}
return [FormRequest.from_response(response,
formdata=login_post,
# callback=self.start_requests,
dont_filter=True
)]
class MercadoSpider(CrawlSpider):
name = 'extractor'
//crawling code
如何正确登录页面?
这是登录html:
<form method="post" action="" class="form">
<fieldset class="col-md-8">
<legend>Ingresar</legend>
<div class="form-group"><label>Email</label> <input type="text" id="loginUserID" name="loginUserID" value="" class="form-control" /></div>
<div class="form-group"><label>Contraseña</label> <input type="password" id="loginPass" name="loginPass" value="" class="form-control" /></div>
<div class="form-group"><button type="submit" class="btn btn-primary">Login</button></div>
<p><a href="/password/recover">Olvidó su contraseña?</a></p>
<p>No está registrado? <a href="/users/register">Regístrese aquí</a></p>
</fieldset>
</form>
解决方案
推荐阅读
- python - 从两个列表中创建字典时,分配中的类型不兼容
- hyperledger-fabric - 错误:事件服务超时 - 无法开始侦听
- react-native - 如何将这个基于类的组件转换为无状态组件?
- typescript - 如何使用 TypeScript 为 Nuxt 路由添加钩子?
- c++ - 如何从位于不同文件夹中的头文件和源文件构建库?
- java - Cucumber,Java:特定文件中的步骤定义忽略
- python - 从python中的wikidata获取实体名称/标签
- python - 如何通过 python 正确更新 Google Sheet 图表数据范围?
- cookies - 使用 Postman Collection 导出 Cookie
- html - 使用 CSS 显示图库页面