python - 当您在网页上做出一些选择时,如何找到正确的 URL?
问题描述
我对网络抓取很陌生。通过使用 xpath 选择器,我试图获取该网页上的知识:https ://seffaflik.epias.com.tr/transparency/uretim/planlama/kgup.xhtml
但关键是,无论何时更改日期或动力装置名称,URL 都不会更改,因此当您获取响应时,您总是得到相同且错误的答案。有没有办法找到正确的 URL 或与 HTML 标记等相关的任何其他内容?
解决方案
对于这样的抓取操作,您需要做的不仅仅是加载文档然后抓取内容。在用户定义了一组特定的参数并更新了表单后,相关文档依赖 JavaScript 从其他资源加载新信息。
加载文档后,您需要定义搜索参数。您可以通过 JavaScript 注入或通过浏览器的控制台执行此操作。例如,如果您尝试定义第一个日期字段的值,则可以使用
document.querySelectorAll('#j_idt199 input')[1].value = "Some/New/Date";
对您希望在搜索中定义的其他字段重复此过程,然后运行以下代码以编程方式执行搜索:
document.querySelector('#j_idt199 button').click();
之后,您可以使用普通的 JS 查询选择器获取您想要的信息,或者您可以实现像artoo.js这样的抓取库来帮助您解释数据并将其导出。
推荐阅读
- c - 如何在阅读C中的特定单词后阅读整个句子
- python - 如何排除整个表达式,而不仅仅是在块文本中具有负面回顾的第一部分
- spring - 出现错误:创建名称为“*”的 bean 时出错:通过字段“repo”表示不满足的依赖关系;n
- sql - 使用 SQL 在表中进行行级计算
- python - ValueError: int() 以 10 为底的无效文字:'' | 姜戈
- php - nginx 重写请求以删除未知路径
- api - 将存储分离为单独的文件(操作、突变、getter)获取 api 调用现在不起作用
- r - R 直方图:将标签“频率”更改为“频率”
- ld - libbpf 问题:未定义对“xsk_umem__create”等的引用
- json - 在 PowerBI 中解析网站搜索历史 JSON 数据