r - R - 下载网站,包括所有 .css、.js、图片等
问题描述
假设我想下载 r-Bloggers.com 的页面。如果我在 Chrome 中按 Ctrl+S,将下载一个 html 文件以及一个包含 58 个文件(.css、.js、图片等)的文件夹
我想从 R 做同样的事情。
我找到了答案并将其包装成system()
:system("wget --page-requisites https://www.r-bloggers.com/")
没有给我 58+1 个文件。
同样适用于:
download.file(url = "https://www.r-bloggers.com/",
destfile = "try", mode = "wget", extra = "--page-requisites")
download.file(url = "https://www.r-bloggers.com/",
destfile = "try.html", mode = "wget", extra = "--page-requisites")
解决方案
这是因为默认情况下 Wget 只会尝试从同一个域下载项目。但是,该网站从不同的主机加载所有内容。
您需要使用该--span-hosts
标志来允许 Wget 访问来自不同主机的文件
推荐阅读
- symfony - 如何在新的 Symfony 邮件组件中使用不同的队列发送邮件
- javascript - localTrack 不显示 twilio 视频通话 JavaScript V2
- parsing - 读取 TXT 文件内容并将其解析为 Erlang 元组的最佳方法是什么?
- docusignapi - DocuSign API 模板与无模板电子邮件响应
- c - 尝试从文件中打印结构的动态数组
- python - 如何将特定的熊猫数据框列写入 CSV 文件
- react-native - 世博会的内置文件变得不可读和损坏
- javascript - 如何将 SVG 转换为 PNG,然后转换为剪贴板?
- typescript - 仅返回提供的键的部分类型的泛型函数的返回类型是什么?
- spring-webflux - 如何使用反应器有条件地重复或重试