python - 使用 Scrapy,返回的 HTML 文件在目录中被涂黑并打开 404 错误。知道为什么吗?
问题描述
我使用的代码几乎是从他们网站上的教程中剪切和粘贴的。
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'https://overwatchleague.com/en-us/players'
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)
代码运行正常,但它保存的 HTML 文件有一个涂黑的图标,并打开一个 404 页面。
编辑:仔细研究一下,这似乎是由于一些反刮擦程序造成的。绕过这个可行/可能吗?
解决方案
推荐阅读
- android - 电子书阅读器应用程序中的 DRM 选项
- cakephp - Cakephp:错误处理问题(错误未插入 error_log 表)
- node.js - AWS EC2 - 重启后 Node.js 不工作
- javascript - 循环后运行函数
- solr - Solr 多语言词干化
- hyperledger-fabric - 如何将业务网络作为第二对等方运行?
- linq - Linq where datetime.ToString() 的条件
- python - python中运动粒子之间的弹性碰撞:为什么动能不守恒?
- android - 如何等待 AsyncTask 完成?
- visual-studio - 在 Visual Studio 中为特定配置禁用项目构建