首页 > 解决方案 > 如何在文档中找到可能以不同形式编写的单词?(Python)

问题描述

我需要从文档中找到单词“判断”或“判断”或“判断”或“判断”或“判断 T”,或者在大写/小写中找到这些字符的任何排列/组合(按特定顺序)。有没有可以帮助我的正则表达式函数?问题是,我将代码应用于不同的文档,每个文档都包含该单词的不同形式。我的代码需要在所有情况下识别这个词。

标签: regexpython-3.xstringnlp

解决方案


您可能想要预处理您的文本数据。否则,如果可能的话,考虑到这种正则表达式的时间复杂性,这样做是不合理的。


排列可能是可能的,因为字母的顺序将保持不变,组合将非常复杂,其中包括诸如getgemMeg和许多其他词。

如果您可能想要一个非常低的边界表达式,也许这个表达式可以查看:

\b([judgment\s]+)\b

在这里你可以看到它是如何失败的:


该表达式在regex101.com的右上角面板上进行了说明,如果您希望探索/简化/修改它,并且在此链接中,您可以查看它如何与一些示例输入匹配,如果您愿意的话。


推荐阅读