php - cURL 返回部分页面 dom
问题描述
我有一个抓取其他网站的脚本。我抓取的其中一个网站突然开始返回部分 HTML 响应。意思是,不返回整个 DOM。
这是我的代码:
$url = "https://example.com";
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($curl, CURLOPT_MAXREDIRS, 10);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A');
curl_setopt($curl,CURLOPT_HTTPHEADER,array('Expect:'));
curl_setopt( $curl, CURLOPT_SSL_VERIFYPEER, false );
curl_setopt($curl, CURLOPT_ENCODING, 'identity');
$response['str'] = curl_exec($curl);
var_dump($response);
$response['header'] = curl_getinfo($curl, CURLINFO_HTTP_CODE);
curl_close($curl);
因此,当我对 $response 进行 var_dump 时,我得到了部分 HTML 响应(这个特定的 URL 似乎没有使用 AJAX 加载内容。当使用浏览器访问这个 URL 时,它会在源代码中一起加载)
我似乎找不到解决此问题的答案。我会很感激我能得到的任何帮助。
谢谢
解决方案
推荐阅读
- typescript - 隐藏超类方法的静态方法的打字稿绑定
- typescript - 在 Typescript 中使数组元素可以为空
- javascript - 长方形左上角的圆角
- javascript - 初始化 Next js App 时收到内部服务器错误
- r - 以编程方式保存 eCharts4r 图表
- javascript - 谁能告诉我为什么在这段代码中按钮不可点击,以及如何使其可点击?
- spring-webflux - Spring WebClient:重试调用方法
- reactjs - 使用 react recoil 和 react-hook-form 执行获取请求
- ms-office - 我在哪里可以将自定义数据存储在活动项目中,以便与会者也可以获取该自定义数据?
- sql - JPA 中的 To_chars