regex - 如何在文档中找到可能以不同形式编写的单词?(Python)
问题描述
我需要从文档中找到单词“判断”或“判断”或“判断”或“判断”或“判断 T”,或者在大写/小写中找到这些字符的任何排列/组合(按特定顺序)。有没有可以帮助我的正则表达式函数?问题是,我将代码应用于不同的文档,每个文档都包含该单词的不同形式。我的代码需要在所有情况下识别这个词。
解决方案
您可能想要预处理您的文本数据。否则,如果可能的话,考虑到这种正则表达式的时间复杂性,这样做是不合理的。
排列可能是可能的,因为字母的顺序将保持不变,组合将非常复杂,其中包括诸如get
、gem
、Meg
和许多其他词。
如果您可能想要一个非常低的边界表达式,也许这个表达式可以查看:
\b([judgment\s]+)\b
在这里你可以看到它是如何失败的:
该表达式在regex101.com的右上角面板上进行了说明,如果您希望探索/简化/修改它,并且在此链接中,您可以查看它如何与一些示例输入匹配,如果您愿意的话。
推荐阅读
- ruby - 未显示 SVG
- ios - 重命名 Xcode 项目合并问题
- javascript - 填写异步函数后返回数组 - Node.js
- laravel - 在 laravel 上重置密码需要更改哪个文件?
- python - 正则表达式来识别文本中只有数字或单个字符的行
- angular - 输入“承诺”
' 不能分配给在 Angular 中键入 'any[]' 错误 - javascript - JS 异步/等待任务队列
- apache-nifi - 有没有办法安排 Nifi 控制器服务定期更新
- python-3.x - 从 3 个列表创建一个字典,其中一个是嵌套列表
- javascript - 通过java脚本计算服务器上上传的数据