首页 > 解决方案 > 如何在自动化过程中下载动态 HTML?

问题描述

好的,我绝望了..我对网络技术、网络编程、框架和所有这些一无所知,我需要下载完整的 HTML 文件——所有动态呈现的内容(javascript?ajax?..),我什至不知道不知道如何命名这个..

请拯救我的生命(绝对沮丧),并告诉我几行代码(任何语言,Windows 中的命令行或简单的外部软件),它们将能够完成这项工作。

需要为数百个网站执行此操作,因此需要可重复和自动化的过程。

谢谢

标签: htmlwebweb-scraping

解决方案


在 linux 终端中,您可以使用 curl 等程序。Windows中有等价物。

apt-get update
apt-get install curl
curl https://stackoverflow.com/ > file.html

或者

apt-get update
apt-get install wget
wget https://stackoverflow.com/

如果在加载页面后有内容添加到网页中,就像你说的因为它在加载页面后执行 JavaScript 代码以下载额外的数据,你最好使用 Python 中的无头浏览器或其他东西。寻找硒。这将是一些自定义编程,具体取决于您想要做什么。登录、cookies、自动点击按钮等。


推荐阅读