首页 > 解决方案 > 无法访问亚马逊服务上的某些网站

问题描述

描述

我正在爬网站:bjx.com,所有代码都可以在本地运行。然后我把代码放在亚马逊服务上运行,它失败了。

我做了什么

我想可能是网站阻止了服务器,我尝试了一些方法:

1)curl http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583

2)wget http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583

错误消息如下:

Resolving news.bjx.com.cn (news.bjx.com.cn)... 114.113.145.103
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80... failed: Connection timed out.
Retrying.

--2019-04-23 05:45:00--  (try: 2)  http://news.bjx.com.cn/list
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80... 

一些参考:

https://serverfault.com/questions/124952/testing-a-website-from-linux-command-line

我的问题 :

如何确认网站是否屏蔽了我,如果被屏蔽了,我该怎么做才能解决问题并爬取网站,谢谢

标签: linuxcurlweb-crawlerblockwget

解决方案


如何通过特定的超时设置使程序失败?

例如,如果 curl 无法在 10 秒内得到响应,则使 curl 失败

卷曲 -m 10

而且,要解决这些问题,您可以尝试使用 VPN 网络代理运行蜘蛛


推荐阅读