首页 > 解决方案 > 我的刮板不适用于 403 禁止的 google-compute-engine

问题描述

我用它写了一个网络爬虫,python3.6它在我自己的服务器上运行良好。

当我试图在我的 上运行它(完全相同的 URL)时google-compute-engine,它失败了HTTP Error 403: Forbidden

我的服务器上的代码和结果

再次,它运作良好。

>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> response = urllib.request.urlopen("http://www.kumkangho.co.kr/bk.popup.info.php?date=20190413&pa_uid=1")
>>> print(response.readline())
b'<!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> -->\r\n'

google-compute-engine 上的结果

在此处输入图像描述

我认为它没有被 url 所在的服务器阻止,而是被 GCE 阻止。

标签: python-3.xweb-scrapinggoogle-compute-engine

解决方案


经过一堆测试,我发现对面的服务器正在阻止来自不需要的国家的访问。

我设置了http_proxy它,它现在正在工作。

@Supratik Majumdar 感谢您的帮助。


推荐阅读