bash - 您可以在不创建目录结构副本的情况下使用 wget 反复递归地镜像站点吗?
问题描述
我想通过使用 wget 抓取 pdf 来存储一个托管大量 pdf 文件的站点,同时保留站点的目录结构。我想定期返回站点,以便复制站点上的任何新文件——但只重新下载新文件和/或目录。换句话说,我想避免复制之前 wget 运行已经复制的内容。
通过运行以下命令几乎可以解决该问题:
wget -nv -m -np -c -w 3 --no-check-certificate -a /path/to/logfile -R "index.html*" -P /path/to/copy "https://source.site/source-directory/"
这只会复制新文件,但似乎会创建目录和子目录的新文件实例,将它们命名为 directory.1、directory/sub-directory.1 等。有没有办法避免这种行为?
解决方案
推荐阅读
- java - 无法获得颤振包
- python - 在 Keras 中为不同的特征做不同的损失函数
- python - Apache HTTP Server 和 Flask:避免在一段时间后重新启动 Python 应用程序
- angular - Angular-Material:在表单标签上显示工具提示
- c# - C# Entity Framework NotMapped 单位转换器
- c# - 从外部访问来自 ac# 控制台应用程序的对象
- python - 如何在 Python 中显示参数函数的等高线图?
- vba - 使用 Getsignature 功能自动回复
- javascript - 将具有多个数组的对象转换为对象数组
- node.js - 将 MongoDB ID 存储为我在 Amazon S3 上的密钥