首页 > 解决方案 > 斯坦福 POS 标记器和分类意图和回复可能出现错误

问题描述

我有一个特定的用例,一个人会说这样的话:

我想识别意图和插槽。

然后我使用 Stanford Parser 解析句子,例如解析“Note in object history object was last updated in May 28”给出了这个元组列表:

[('Note', 'VB'),
 ('in', 'IN'),
 ('object', 'NN'),
 ('history', 'NN'),
 ('object', 'NN'),
 ('was', 'VBD'),
 ('last', 'RB'),
 ('updated', 'VBN'),
 ('in', 'IN'),
 ('may', 'MD'),
 ('twenty', 'CD'),
 ('eighteen', 'CD')]
  1. 现在,我的观点是如何使用这些信息来获得必要的输出:

    • 需要注意的地方(我们在 DB 中有一个字段:对象历史)
    • 注意事项(对象最后一次更新是在 5 月 28 日)
  2. 另一个问题是由于 NLP 的输入来自 ASR 系统,因此缺少大写字母。并且 POS 标记器错误地将“note”标记为“NN”(而不是“VB”)。理想情况下,'note'/'record' 应该是动词。我该如何解决这个可能的错误?

标签: nlpspeech-recognitionstanford-nlppos-tagger

解决方案


您可以使用 TrueCaseAnnotator 修复案例问题:

https://stanfordnlp.github.io/CoreNLP/truecase.html

一般来说,您可能只想使用 TokensRegex 并编写规则模式来处理这些模板。更多信息在这里:

https://stanfordnlp.github.io/CoreNLP/tokensregex.html


推荐阅读