首页 > 解决方案 > TokenRegex 规则,不包括被任何其他规则捕获的令牌

问题描述

我正在使用 stanford nlp tokenRegex 进行标记化。我正在使用正则表达式文件。以下是我使用的规则。

Rule 1

 {
   ruleType:"tokens",
   pattern:([{tag:/NN/}|{tag:/NNP/}]),
   result:"Single noun"
}

Rule 2

{
   ruleType:  "tokens",
   pattern:([{tag:/NN.*/}|{tag:/CD*/}]),
   result : "Noun with Number"
}

我给出的句子是Take note with the Samsung Notebook 9 Pen,我得到了以下结果

note -> 单名词

三星笔记本 9 Pen -> 带数字的名词

即使 samsung,notebook,pen... 的 POSNN也被排除在外。它不被捕获rule1,即被捕获的词被rule 2排除在外rule 1

有没有办法同时匹配这两个规则?

标签: javastanford-nlp

解决方案


推荐阅读