首页 > 解决方案 > 正则表达式输出有我无法理解的空字符串

问题描述

我对正则表达式有点陌生,我的输出列表中有一些我无法理解的空字符串。我有以下字符串:

string ='[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

我正在尝试提取<samp> tags (which is "clear")日期和日期之间的单词2021-03-22T17:06:03.000Z。尽管我的模式似乎运行良好,但当我将它们与逻辑运算符或 (|) 组合在一起时,输出列表中会出现空字符串。

例子:

import re

pattern = '\>([a-zA-Z]+)\<'
pattern2= '(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'

string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

print(re.findall(pattern,string))
print(re.findall(pattern2,string))

输出

['clear']
['2021-03-22T17:06:03.000Z']

现在,当我与 with 结合patternpattern2|我得到以下结果:

import re
pattern = '\>([a-zA-Z]+)\<|(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'

string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

print(re.findall(pattern,string))

输出

[('clear', ''), ('', '2021-03-22T17:06:03.000Z')]

这些空字符串从何而来?请帮忙!

标签: pythonpython-3.xregexstring

解决方案


您观察到的输出只是re.findall您定义捕获组时的预期行为。在这种情况下,每个元组中的第一个条目是第一个捕获组(来自<samp>模式的一部分),而第二个条目是第二个捕获组(来自时间戳)。您的交替将仅匹配这两个捕获组之一,因此输出将始终是带有一个空字符串的 2 元组。

一种可能的解决方法是完全避免捕获组:

pattern = '(?<=>)[a-zA-Z]+(?=<)|\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+'
string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
print(re.findall(pattern,string))  # ['clear', '2021-03-22T17:06:03.000Z']

通过对模式部分进行轻微更改<samp>以使用环视,我们可以避免捕获组。然后,每个匹配re.findall项都将是列表中的一个条目。


推荐阅读