python - Scrapy :: 如何获取带有例外的请求以导出到.csv?
问题描述
我对使用 Scrapy 还很陌生,并且已经编写了大约 2 年的代码(对不起,如果这是一个愚蠢的问题)。
我目前正在尝试抓取一般信息,例如网站是否在网站列表中具有“隐私政策”链接或“关于我们”链接。我已经能够在具有支持 HTTPS 的 URL 或具有实时链接的网站上抓取信息。
对于无法加载或存在 HTTPS 与 HTTP 问题的网站,我遇到了一些例外情况:
twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>]
twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'ssl3_get_record', 'wrong version number')]>]
根据蜘蛛的多次爬取,我发现生成的.csv 的网站排除了这些链接。
我想知道如果可能的话,如何让蜘蛛将这些失败的链接包含在每列的预设参数中。
解决方案
推荐阅读
- python - SQLAlchemy:在存储之前映射列值
- emscripten - 在 Emscripten 上使用 ofSoundStream 听不到声音
- spring-webflux - 检索 StepVerifier 中的所有通量元素
- xamarin - 发布模式下的 MvvmCross Android 绑定 EditText
- hadoop - 配置单元控制台中的所有配置单元命令都给出异常
- c - 有没有一种按位数使用二叉树的排序算法?
- python - 识别数据框行内的 HTML 标签
- azure - 使用 Azure Logic App 和 Azure Function 更改数据库时使 redis 缓存失效
- javascript - ActionController::RoutingError (没有路由匹配 [GET] )
- javascript - 如何使用 if else 条件在其他 div 之后插入 div