xml - 如何批量下载页面源
问题描述
我想知道如何批量下载任何网页的 XML 源代码。
假设我正在下载view-source:https://www.google.com/
,我将如何获取文本并将其保存为我的计算机上的 TXT 文件?
调用其他语言越少越好,我至少需要它是批处理或powershell。
编辑:澄清一下,我没有在这里过滤任何东西,我只想要原始 XML。
解决方案
PowerShell 2.0+
在 PowerShell 2.0+ 中,您可以运行以下代码将网站的 HTML/XML 下载到文件中:
$webclient = new-object system.net.webclient;
$webclient.DownloadString('https://www.google.com/') | Set-Content -Path .\file.txt
您可以将其减少为一行:
(new-object system.net.webclient).DownloadString('https://www.google.com/') | Set-Content -Path .\file.txt
可以从命令行运行:
powershell.exe -executionpolicy --command "(new-object system.net.webclient).DownloadString('https://www.google.com/') | Set-Content -Path .\file.txt"
PowerShell 3.0+
在 PowerShell 3.0+ 中,您可以运行以下代码将网站的 HTML/XML 下载到文件中(如 Squashman 建议的那样):
$R = Invoke-WebRequest -URI https://www.google.com/
$R.Content | Set-Content -Path .\file.txt
您可以将其减少为一行:
(Invoke-WebRequest -URI https://www.google.com/).Content | Set-Content -Path .\file.txt
可以从命令行运行:
powershell.exe -executionpolicy --command "(Invoke-WebRequest -URI https://www.google.com/).Content | Set-Content -Path .\filer.txt"
在大多数情况下,您还需要添加代码来处理行尾,通常只有\n
. 许多 Windows 文本编辑器(如记事本)不会显示这些,因此将它们替换为\r\n
.
推荐阅读
- javascript - 导航栏如何使用香草 javascript 进行平滑滚动?
- python - 如何在子进程模块的调用方法中传递密码
- javascript - React JS,一种形式的两个提交按钮
- xamarin - 如何使用 Xamarin 表单从登录页面的 OnAppearing 设置我的应用程序主页 (shell)?
- javascript - d3 年滑块启用步骤之间的区域
- python - Python数组复制导致内存(重新)分配
- c++ - 在二维向量中使用第三个 [ ] 的目的是什么?
- reactjs - 运行 Truffle-react-box 开发服务器时出现 Metamask-Web3 错误
- r - 如何用 NA 值替换某些列(特别是“NAICSP”和“SOCP”)中的空白(“”)
- azure - 使用 powershell 将 Azure AAD 令牌生命周期配置为 10 分钟不起作用