regex - 正则表达式替换以将分页 URL 映射到新格式
问题描述
我正在使用网络爬虫工具来比较迁移前后两个不同的网站爬网,并且需要映射已更改格式的分页 URL。
例如
旧:https://example.com/page/2/
或:https://example.com/directory/page/16/
新:https://example.com/?page=2
或:https://example.com/directory/?page=16
该工具具有用于 URL 映射的正则表达式替换功能,
但是,我无法使正则表达式正确,并且最终结果末尾有一个额外的正斜杠:
https://example.com/?page=2/
什么是正确的正则表达式来获得我正在寻找的结果?
解决方案
正则表达式:/page/([0-9]+)/
代替:/?page=$1
推荐阅读
- android - Admob 横幅和智能横幅广告在加载时会填满整个屏幕
- python - pandas.core.series.Series 浮动
- c# - 从 c# 运行 PowerShell 脚本
- sql-server - 如何导入 .bak 文件以在 vscode 上使用 mssql?
- exception - 如何处理在java 6中引发多个异常的方法
- php - 无法使用 PHP 登录 AWS Cloudwatch?
- laravel - 调用包中未定义的方法 Vender\Package\Auth::extend()
- php - 如何检索条带会话ID php
- java - 将 mm:ss 转换为仅秒 (java)
- android - 在安卓应用中部署深度学习模型