首页 > 解决方案 > 您可以在不创建目录结构副本的情况下使用 wget 反复递归地镜像站点吗?

问题描述

我想通过使用 wget 抓取 pdf 来存储一个托管大量 pdf 文件的站点,同时保留站点的目录结构。我想定期返回站点,以便复制站点上的任何新文件——但只重新下载新文件和/或目录。换句话说,我想避免复制之前 wget 运行已经复制的内容。

通过运行以下命令几乎可以解决该问题:

wget -nv -m -np -c -w 3 --no-check-certificate -a /path/to/logfile -R "index.html*" -P /path/to/copy "https://source.site/source-directory/"

这只会复制新文件,但似乎会创建目录和子目录的新文件实例,将它们命名为 directory.1、directory/sub-directory.1 等。有没有办法避免这种行为?

标签: bashwget

解决方案


推荐阅读