首页 > 解决方案 > 如何修改 SpaCy 中缀模式以避免在字母之间的撇号上拆分符号

问题描述

我正在查看 Spacy 的其中一个中缀:
r"(?<=[{al}{q}])\.(?=[{au}{q}])".format(al=ALPHA_LOWER, au=ALPHA_UPPER, q=CONCAT_QUOTES)但无法弄清楚它的确切含义。是小写字母后跟引号字符后跟句号后跟大写字母后跟引号字符吗?喜欢b'.X'

本质上,我正在尝试对其进行编辑,以使其不会'在字母字符之间拆分。所以dk'd留下dk'd而不是分裂成['dk','d']

当我运行它(短语匹配器脚本)时,要匹配的模式之一是“DK”。它与 "dk'd" 上的 "DK" 匹配,我假设是因为它将它分成我不想要的 "dk" 和 "d"。

标签: pythonregexspacy

解决方案


推荐阅读