首页 > 解决方案 > 搜索字符串中匹配特定条件的子字符串

问题描述

这是我另一篇文章的延续:在特定条件下从字符串中提取数字

总而言之,我有一些存储在数据框中的字符串,我想提取与所有条件匹配的第一个数字(如果存在)。以下是条件:

这是我到目前为止找到的数字,它处理前两个条件:

for index, row in df.iterrows():
    test = re.search(r'(?!^)(?<!\bNo\.\s)(?<!\bQuestion\s)(\d+)(?!\d)',
                     row['name'])
    if test:
        df.loc[
            df['name'] == row['name'], ['id']] = test.group()

我也尝试过使用:

\b(?!196[0-9]\d|20[012][0])\d+\b

考虑到数字不在 1960 年和 2020 年的值之间,但它似乎不起作用。如果 e 存在,我也不明白如何捕捉它。

示例 1:

"Trial No. 32819 Question 485 Article 787e"

我希望正则表达式返回

[787e]

示例 2:

"2981 XYZ Legislature"

我希望正则表达式返回

None

示例 3"

"Addendum217Null"

我希望正则表达式返回

[217]

提前感谢您的帮助!

标签: pythonregexpandas

解决方案


您可以使用

(?!^)(?<!\bNo\.\s)(?<!\bQuestion\s)(?<!\d)(?!(?:19[6-9][0-9]|20[01][0-9]|2020)(?!\d))(\d+(?!\d)e?)

查看正则表达式演示

新的部分是(?<!\d)(?!(?:19[6-9][0-9]|20[01][0-9]|2020)(?!\d))(\d+(?!\d)e?)

  • (?<!\d)- 当前位置左侧不允许有数字
  • (?!(?:19[6-9][0-9]|20[01][0-9]|2020)(?!\d))- 如果在当前位置的右侧有一个从1960to 到2020后面没有数字的数字,则匹配失败的负前瞻
  • (\d+(?!\d)e?)- 第 1 组(您将提取的内容):1 个以上的数字,后面没有数字和可选e字母

推荐阅读