html - 如何在自动化过程中下载动态 HTML?
问题描述
好的,我绝望了..我对网络技术、网络编程、框架和所有这些一无所知,我需要下载完整的 HTML 文件——所有动态呈现的内容(javascript?ajax?..),我什至不知道不知道如何命名这个..
请拯救我的生命(绝对沮丧),并告诉我几行代码(任何语言,Windows 中的命令行或简单的外部软件),它们将能够完成这项工作。
需要为数百个网站执行此操作,因此需要可重复和自动化的过程。
谢谢
解决方案
在 linux 终端中,您可以使用 curl 等程序。Windows中有等价物。
apt-get update
apt-get install curl
curl https://stackoverflow.com/ > file.html
或者
apt-get update
apt-get install wget
wget https://stackoverflow.com/
如果在加载页面后有内容添加到网页中,就像你说的因为它在加载页面后执行 JavaScript 代码以下载额外的数据,你最好使用 Python 中的无头浏览器或其他东西。寻找硒。这将是一些自定义编程,具体取决于您想要做什么。登录、cookies、自动点击按钮等。
推荐阅读
- javascript - 使用 ngIf 的角度隐藏元素需要更长的时间
- r - r - 如果下面的行包含一个值,则从计数中删除
- keras - 反正有没有用谷歌的 AutoML 训练一个分类模型,混合(语言和表格)数据?
- excel - 在 VBA 中向 Excel 表中添加一行会重新计算
- python - 混淆二进制字符串中的位数(Python)
- javascript - 在不刷新页面的情况下重置图像裁剪器很热?
- powershell - 获取在某个日期之后创建的所有 AD 计算机
- java - Arraylist 输出重复
- anylogic - 如何创建与旧版本兼容的 anylogic 文件的副本?
- loops - Ansible Hosts 在剧本中循环