首页 > 解决方案 > 如何在网站上找到所有(可能是相对的)网址?

问题描述

作为一个编程练习,我正在制作一个小型 python 工具来在本地下载整个网站。为了能够在本地浏览网站,我需要将所有 URL 转换为相对 URL。否则,资源文件(.js、.css)将从原始网站下载,而不是使用本地下载的版本。由于我需要重写 URL,我想我也可以更改文件层次结构。这导致了这个稍微更普遍的问题:

如何找到网站中的所有 URL?基于的正则表达式http://domain.tld/path不会削减它,因为href属性可能包含相对 URL。

到目前为止,我已经确定了以下内容:

HTML

CSS

JS

[编辑] 另请参阅这篇文章以获取一些正则表达式以查找 url。不完整,因为srcset那里没有使用。

标签: htmlregexurlweb-scrapingw3c

解决方案


也许是一个好的开始?

mech-dump --links 'https://stackoverflow.com/questions/62313765

取回:

  • 邮寄
  • http(s) 链接
  • 图片

此命令与模块一起安装:WWW::Mechanize

libwww-mechanize-perl基于 Debian 的发行版的软件包


推荐阅读