首页 > 解决方案 > 使用 php curl 抓取安全页面?

问题描述

尝试使用 php curl 抓取页面。但是每次我点击该 URL 时都会收到超时错误。我正在尝试的 URL,它在浏览器中打开,但不是通过我的 php curl 请求。

我的请求与在浏览器中传递的请求相同。我使用Burp 套件来获取请求和响应信息。我还设置了所需的标题。

我假设它正在发生,因为我的服务器 ip 与该 URL 的预期不同。

谁能让我知道为什么会发生这种情况。我对网络不是很了解。因此,努力抓取页面。

此外,我想让你们知道,这个 URL在使用 JavaScript 成功加载后会更改其 URL 。例如:http://example.tld/page?p1=234&p2=532变为http://example.tld/api/page我想知道这可能是原因还是服务器 IP 或其他原因。

下面是我正在尝试的代码。

function get_web_page( $url ){
    $options = array(
        CURLOPT_RETURNTRANSFER => true,     // return web page
        CURLOPT_HEADER         => true,    // don't return headers
        CURLOPT_FOLLOWLOCATION => false,     // follow redirects
        CURLOPT_ENCODING       => "",       // handle all encodings
        CURLOPT_USERAGENT      => "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36", // who am i
        CURLOPT_AUTOREFERER    => true,     // set referer on redirect
        CURLOPT_CONNECTTIMEOUT => 30,      // timeout on connect

        CURLOPT_HTTPHEADER     => array(
            "Pragma: no-cache",
            "Cache-Control: no-cache",
            "Upgrade-Insecure-Requests: 1",
            "User-Agent: Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36",
            "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
            "Accept-Encoding: gzip, deflate",
            "Accept-Language: en-US,en;q=0.9",
            "Cookie: JSESSIONID=0C072792B81AAAC43110DE7106E4F30C", 
            "Connection: close",
        ),
        CURLOPT_TIMEOUT        => 30,      // timeout on response
        CURLOPT_MAXREDIRS      => 10,       // stop after 10 redirects
        CURLOPT_SSL_VERIFYPEER => false,    // Disabled SSL Cert checks
    );
    /*$last_url = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);.*/
    $ch      = curl_init( $url );
    curl_setopt_array( $ch, $options );
    $content = curl_exec( $ch );
    $err     = curl_errno( $ch );
    $errmsg  = curl_error( $ch );
    $header  = curl_getinfo( $ch );
    curl_close( $ch );

    $header['errno']   = $err;    
    $header['errmsg']  = $errmsg;
    $header['content'] = $content;
    return $header;
}

标签: phpcurlnetworkingweb-scrapingreverse-proxy

解决方案


推荐阅读