linux - 无法访问亚马逊服务上的某些网站
问题描述
描述
我正在爬网站:bjx.com,所有代码都可以在本地运行。然后我把代码放在亚马逊服务上运行,它失败了。
我做了什么
我想可能是网站阻止了服务器,我尝试了一些方法:
1)curl http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583
2)wget http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583
错误消息如下:
Resolving news.bjx.com.cn (news.bjx.com.cn)... 114.113.145.103
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80... failed: Connection timed out.
Retrying.
--2019-04-23 05:45:00-- (try: 2) http://news.bjx.com.cn/list
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80...
一些参考:
https://serverfault.com/questions/124952/testing-a-website-from-linux-command-line
我的问题 :
如何确认网站是否屏蔽了我,如果被屏蔽了,我该怎么做才能解决问题并爬取网站,谢谢
解决方案
如何通过特定的超时设置使程序失败?
例如,如果 curl 无法在 10 秒内得到响应,则使 curl 失败
卷曲 -m 10
而且,要解决这些问题,您可以尝试使用 VPN 网络代理运行蜘蛛
推荐阅读
- mysql - MySQL子查询作为别名 - 未知列错误
- c# - AutoMapper 不映射嵌套的复杂类型
- ffmpeg - 使用 ffmpeg 将 DTS 转换为 AAC 将语音音频向右移动
- path - 路径问题 - POSIX HFS 无法获取文件夹
- java - Firebase 数据库分页滚动动作
- bash - Bash - 如果主域在文件 A(或管道)中,则从文件 B 中删除域/子域
- android - 将可见性设置为 GONE 不会隐藏 imageView
- c# - glBufferData 不断失败并显示 GL_INVALID_ENUM 即使它不应该
- mongodb - 在 MongoDB 中插入大数据
- c# - 如何在 C# 中获取此子字符串结果