python - scrapy shell如何爬取特定网站
问题描述
我想通过scrapy shell来抓取这个网站,我试过:
$ scrapy shell 'https://aaav2.hinet.net/A1/AuthScreen.jsp'
加上用户代理
$ scrapy shell -s USER_AGENT='Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2
Safari/601.3.9' 'https://aaav2.hinet.net/A1/AuthScreen.jsp'
然后view(response)
一无所获。
有人能帮我纠正view(response)
一下吗,就像我直接在浏览器中打开这个 URL 一样?
解决方案
您正在重定向到另一个 URL。做:
$ scrapy shell "https://aaav2.hinet.net/A1/error.jsp?aa-eurl=edc68fe62571d6617ef5f42113d9068aa9f6600e320d55084d75fbf2cd244155e02b9b684284ed94c52ee591d2edde9a&mesg=aa-version+parameter+is+required%21%3Cbr+%2F%3Eaa-productid+parameter+is+required%21%3Cbr+%2F%3Eaa-curl+parameter+is+required%21%3Cbr+%2F%3Eaa-eurl+parameter+is+required%21%3Cbr+%2F%3Eaa-fee+parameter+is+required%21%3Cbr+%2F%3E&aa-eurlDesc=&aa-device=pc&aa-usage=&aa-propertiesKey=&aa-language="
view(response)
这将向您显示一个页面,就像您的浏览器一样。
推荐阅读
- gem5 - 在 gem5 上测量组装对性能的影响
- javascript - YouTube.Channels.list 仅在从 apps.script 调用时返回空集
- python - 使用正则表达式在特定单词之后查找缩写
- .htaccess - 使用 .htaccess 会出现 500 错误,但适用于文件
- c++ - boost::Beast 错误 WebSocket 帧有效负载不是有效的 utf8
- apache-kafka - 为 docker 内的 kafka 设置默认的 segment.bytes
- javascript - 使用 react-redux 进行 Firestore 分页
- python - 使用正则表达式(Python)在特定字符序列后拆分字符串
- vue.js - 获取tiptap-vuetify 以在Vue Nuxt 应用程序中使用“提及”
- java - 使用正则表达式在 JSON 中查找键并将它们放在 java 中的映射中