首页 > 解决方案 > 正则表达式替换为自我

问题描述

我正在使用正则表达式来标记消息中的信息。这些消息的结构是我要查找的某些信息是有序的。然而,某些消息的顺序以及我正在寻找的特定类型的信息可能会根据消息的类型而改变。以下是此类消息的最小示例

message = 'foo 1234567890 bar'

假设我知道我的消息由我正在寻找的 3 条信息组成var_avar_b、 和var_c。我知道var_aandvar_c是小写字符串,var_b而是一个数字,它们出现在 ordervar_avar_b,然后出现var_c在我的消息中。我可以使用

r = re.compile('(?P<var_a>[a-z]*)\s+(?P<var_b>[0-9]*)\s+(?P<var_c>[a-z]*)')
d = [m.groupdict() for m in r.finditer(message)][0]

for key, value in d.items():
    message = message.replace(value, f'[{key}]{value}[{key}]')

输出

'[var_a]foo[var_a] [var_b]1234567890[var_b] [var_c]bar[var_c]'

但是,当我的消息中有重复的单词时,例如var_avar_c,即

message = 'foo 1234567890 foo'

我得到作为输出

'[var_a][var_c]foo[var_c][var_a] [var_b]1234567890[var_b] [var_a][var_c]foo[var_c][var_a]'

我将如何处理这个问题?我想过在正则表达式匹配期间立即替换短语(使用类似 re.sub 的东西),但我似乎无法弄清楚如何做到这一点,因为我需要能够引用我在我的正则表达式(如 var_a 等)以及分配给这些名称的内容。

我想获得的输出是

'[var_a]foo[var_a] [var_b]1234567890[var_b] [var_c]foo[var_c]'

这包括空格(或原始消息中的任何其他类型的文本)。

标签: pythonregex

解决方案


我会re.sub在这里用作:

message = 'foo 1234567890 bar'
output = re.sub(r'\b([a-z]+) (\d+) ([a-z]+)\b', '[var_a]\\1[var_a] [var_b]\\2[var_b] [var_c]\\3[var_c]', message)
print(output)

这打印:

[var_a]foo[var_a] [var_b]1234567890[var_b] [var_c]bar[var_c]

推荐阅读