首页 > 解决方案 > 正则表达式替换以将分页 URL 映射到新格式

问题描述

我正在使用网络爬虫工具来比较迁移前后两个不同的网站爬网,并且需要映射已更改格式的分页 URL。

例如

旧:https://example.com/page/2/或:https://example.com/directory/page/16/

新:https://example.com/?page=2或:https://example.com/directory/?page=16

该工具具有用于 URL 映射的正则表达式替换功能,

在此处输入图像描述

但是,我无法使正则表达式正确,并且最终结果末尾有一个额外的正斜杠:

https://example.com/?page=2/

什么是正确的正则表达式来获得我正在寻找的结果?

标签: regexurlweb-crawlerregexp-replace

解决方案


正则表达式:/page/([0-9]+)/

代替:/?page=$1


推荐阅读