php - 使用 php curl 抓取安全页面?
问题描述
尝试使用 php curl 抓取页面。但是每次我点击该 URL 时都会收到超时错误。我正在尝试的 URL,它在浏览器中打开,但不是通过我的 php curl 请求。
我的请求与在浏览器中传递的请求相同。我使用Burp 套件来获取请求和响应信息。我还设置了所需的标题。
我假设它正在发生,因为我的服务器 ip 与该 URL 的预期不同。
谁能让我知道为什么会发生这种情况。我对网络不是很了解。因此,努力抓取页面。
此外,我想让你们知道,这个 URL在使用 JavaScript 成功加载后会更改其 URL 。例如:http://example.tld/page?p1=234&p2=532变为http://example.tld/api/page。我想知道这可能是原因还是服务器 IP 或其他原因。
下面是我正在尝试的代码。
function get_web_page( $url ){
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page
CURLOPT_HEADER => true, // don't return headers
CURLOPT_FOLLOWLOCATION => false, // follow redirects
CURLOPT_ENCODING => "", // handle all encodings
CURLOPT_USERAGENT => "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36", // who am i
CURLOPT_AUTOREFERER => true, // set referer on redirect
CURLOPT_CONNECTTIMEOUT => 30, // timeout on connect
CURLOPT_HTTPHEADER => array(
"Pragma: no-cache",
"Cache-Control: no-cache",
"Upgrade-Insecure-Requests: 1",
"User-Agent: Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36",
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding: gzip, deflate",
"Accept-Language: en-US,en;q=0.9",
"Cookie: JSESSIONID=0C072792B81AAAC43110DE7106E4F30C",
"Connection: close",
),
CURLOPT_TIMEOUT => 30, // timeout on response
CURLOPT_MAXREDIRS => 10, // stop after 10 redirects
CURLOPT_SSL_VERIFYPEER => false, // Disabled SSL Cert checks
);
/*$last_url = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);.*/
$ch = curl_init( $url );
curl_setopt_array( $ch, $options );
$content = curl_exec( $ch );
$err = curl_errno( $ch );
$errmsg = curl_error( $ch );
$header = curl_getinfo( $ch );
curl_close( $ch );
$header['errno'] = $err;
$header['errmsg'] = $errmsg;
$header['content'] = $content;
return $header;
}
解决方案
推荐阅读
- sql-server - 增加 MS SQL 恢复操作的响应时间
- c# - 将代码从 Umbraco v7 复制到 Umbraco v8 时出现问题
- ios - 生成覆盖率报告时出错
- javascript - 提取两个对象(甚至嵌套对象)之间不同的键值什么方法?
- python - MSEdgeDriver (Chromium) 不适用于版本 >= 79.0.313 (Canary)
- c# - 调用时 UI 冻结。在新窗口上显示
- python - 为视频捕获添加 X 延迟
- php - 获取/发布 web.php 创建/存储路由返回 404
- python - 如何根据缺失值的百分比计算数据框中列的不同分位数范围?
- vue.js - Vue 指令更新模糊输入