python - 如何修改 SpaCy 中缀模式以避免在字母之间的撇号上拆分符号
问题描述
我正在查看 Spacy 的其中一个中缀:
r"(?<=[{al}{q}])\.(?=[{au}{q}])".format(al=ALPHA_LOWER, au=ALPHA_UPPER, q=CONCAT_QUOTES)
但无法弄清楚它的确切含义。是小写字母后跟引号字符后跟句号后跟大写字母后跟引号字符吗?喜欢b'.X'
?
本质上,我正在尝试对其进行编辑,以使其不会'
在字母字符之间拆分。所以dk'd
留下dk'd
而不是分裂成['dk','d']
当我运行它(短语匹配器脚本)时,要匹配的模式之一是“DK”。它与 "dk'd" 上的 "DK" 匹配,我假设是因为它将它分成我不想要的 "dk" 和 "d"。
解决方案
推荐阅读
- python - 如何使用 base64 模块获取带有“\”的解码字符串
- c# - C# 动态类型 Object 属性 First 始终为 null
- android - 在 android kotlin mvvm 中没有主构造函数就不可能进行超类型初始化
- sql - SQL:如何按日期之间的相对时间按时间戳列分组?
- javascript - 从对象动态设置 Mousetrap.bind() 组合键
- java - 表达式是否被认为是语句而不是其他方式?混乱
- php - 带有 Highcharts 的 codeigniter - 数据不来控制器查看
- java - 如何在mongo morphia中的2个日期之间求和?
- excel - 具有多个 if 或的公式
- android - XML 数据绑定过多