java - TokenRegex 规则,不包括被任何其他规则捕获的令牌
问题描述
我正在使用 stanford nlp tokenRegex 进行标记化。我正在使用正则表达式文件。以下是我使用的规则。
Rule 1
:
{
ruleType:"tokens",
pattern:([{tag:/NN/}|{tag:/NNP/}]),
result:"Single noun"
}
Rule 2
{
ruleType: "tokens",
pattern:([{tag:/NN.*/}|{tag:/CD*/}]),
result : "Noun with Number"
}
我给出的句子是Take note with the Samsung Notebook 9 Pen
,我得到了以下结果
note -> 单名词
三星笔记本 9 Pen -> 带数字的名词
即使 samsung,notebook,pen... 的 POSNN
也被排除在外。它不被捕获rule1
,即被捕获的词被rule 2
排除在外rule 1
。
有没有办法同时匹配这两个规则?