html - Wget 如何在 url 上排除/包含特定链接
问题描述
我正在尝试在 NexusHub 上存档此页面(需要登录)。 https://www.nexusmods.com/newvegas/mods/70879
基本上文件结构是:
nexusmods.com
nexusmods.com/newvegas
newvegas/mods
mods/70879 *[The page I am archiving]*
70879?tab=files [Download files in links]
70879?tab=images [Images]
70879?tab=videos
70879?tab=docs
70879?tab=posts
70879?tab=bugs
70879?tab=logs
70879?tab=stats
基本上我只想要 70879 页面中的所有链接。所以所有的选项卡、图像和 zip 文件。但是做这样的事情:
wget -r -l 1 -k -K -E -e robots=off -p --convert-links --no-parent -X https://www.nexusmods.com/newvegas/Sessions --load-cookies "路径/到/cookies.txt" https://www.nexusmods.com/newvegas/mods/70879
结果导致整个 mods/ 部分被保存。这就是 -l 1 存在的原因。我不想要整个网站,我只想要这个特定页面及其特定页面链接,如图像、视频和下载文件。
解决方案
推荐阅读
- swift - 我在尝试从 CloudKit 公共数据库中删除记录时收到错误消息
- ios - 为 Tableview 重置节标题
- image-processing - 使用图像处理的人脸大小
- node.js - 如何将 Node.js 应用程序连接到 Ubuntu 服务器上的 postgresql?
- python - 如何使用 MapReduce 方法提取 MrJob 中的行索引?
- c# - 主体已经存在 LDAP C#
- javascript - MutationObserver 检查项目是否从 DOM 中出现或消失
- node.js - 它说项目未定义
- python - Python,拆分列表,映射函数
- syntax - 标签中带有 Traefik“@file”的 Docker-Compose