html - 我怎样才能让 wget 从这个网站下载所有的 pdf 文件?
问题描述
该网站是:https ://dgriffinchess.wordpress.com/
我已经下载了整个网站,但我也想要 pdf 文件,是的,我已经尝试过这个、这个和这个答案,除非 wget 保存除主站点文件夹以外的 pdf 文件(位于主目录),我根本看不到它们在下载..(我不等到命令完成,我只是等了几分钟,发现还没有下载 pdf 文件,并考虑到有几乎在每个网页上都有一个,我得出的结论是 pdf 没有被下载)我真的不在乎是否必须再次重新下载整个网站,一开始并没有那么大,对我来说最重要的是.pdf 文件,似乎无法以任何方式下载..
提前谢谢了
解决方案
PDF 文件存储在另一个域中,dgriffinchess.files.wordpress.com
.
--span-hosts
要完全下载本网站连同 PDF 文件,您需要使用和授权存储 PDF 文件的域名--domains=domain_a,domain_b
:
wget --recursive --page-requisites --convert-links --span-hosts --domains=dgriffinchess.wordpress.com,dgriffinchess.files.wordpress.com https://dgriffinchess.wordpress.com/
推荐阅读
- javascript - NodeJs API 登录 B2C 没有 B2C 登录页面
- c++ - FFF(Fake Function Framework)重新声明为不同类型的实体
- artifactory - 无法从 Jfrog Artifactory 读取
- testing - 酶集成测试:axios.get 调用未在 redux-saga 中执行
- java - 如何从 1 开始 for 循环
- java - 在 JFrame 表单中使用方法 (GUI - Java)
- python - 与 sys.path 顺序无关的与 SDK 包导入同名的 python 站点包
- python - Python Tifffile:在 SageMaker 中加载图像的问题
- python - redis python3 rq worker因utcparse started_at date缺席而失败
- mysql - 如何修复 unregonize 语句类型错误?