首页 > 解决方案 > 用于排除 URL 中的子字符串的正则表达式

问题描述

我正在为我们公司的子域设置 Hotjar 录音。但是,我在排除此子域的子字符串时遇到问题,因为子域不是固定字符串。

基本上子域是一个类别页面。我们总共有大约 34 个不同的类别,我希望记录所有这些类别,因为它们基本上是相同的页面,只有一些副本有所更改。

示例类别网址:

https://se.readly.com/products/magazines/se/celebrities_entertainment
https://se.readly.com/products/magazines/se/dagstidningar

类别页面的子字符串 url 示例:

https://se.readly.com/products/magazines/se/dagstidningar/kvaellsposten-1
https://se.readly.com/products/magazines/se/wedding/sisters-in-law-ett-nytt-slags-broellopsmagasin
https://se.readly.com/products/magazines/se/wedding/allt-om-broellop

我尝试过但没有成功的代码示例(显然):

\bse.readly.com/products/magazines/se/[a-z-_]+$

标签: regexregex-lookaroundsregex-groupregex-greedy

解决方案


在这里,我们可以逐步匹配所需的 URL。如果需要,我们可能希望使用捕获组来轻松获取 URL 组件。让我们从类似于以下内容开始:

^(.+?)(se.readly.com)(\/products\/magazines\/se\/)([a-z0-9-_]+)(\/[a-z0-9-_]+)$

如果我们愿意,我们可以减少我们拥有的界限。

在此处输入图像描述

演示


推荐阅读