python - 实体检测 - 实体与英文单词冲突
问题描述
我有几句话如下
what is the sales org for fpc 1234 for IS?
give me sales org for fpc 12234 for IS?
give me sales org for fpc 12234 with scope ME?
在上面的句子中,我正在寻找的实体分别是IS
,IS
和ME
。这些实体包括 、IS
、ME
、AN
,AM
它们在用英语构建句子时很常见。我LUIS
用于实体检测并将实体维护为列表实体。问题是,虽然LUIS
能够检测到实体(IS
, AN
, AM
),但它可以在正常句子中检测到它们,例如
what is the sales org for fpc 1234
在上面的句子中,我们没有任何实体,但实体IS
被拾取。
我们如何仅在实体被实际处理而不是句子结构的一部分时才检测它们。
需要注意的几点:
- 实体列表真的很长,用来训练实体而不是使用实体
- 我们不能硬编码来查找实体的两次出现,因为它可能会失败,如下所示:
give me sales org for fpc 12234 for IS?
ME,IS
不会出现两次,也不能用于创建规则。
- 问题一般不在于
LUIS
实体提取,而在于实体提取。我也在研究POS
标记,但这需要实体以大写字母出现才能将其识别为名词,但情况可能并非总是如此。
解决方案
正如您所说,正确解析句子将为您提供 PoS 标签,这将帮助您获得正确的答案。不幸的是,您展示的示例语法很差,因此即使是最好的解析器也可能会遇到困难。
您是否有足够的精选数据来训练神经网络?LSTM 可能会设法充分了解这些句子中实际使用的语法,从而成功地进行 NER。
在您给出的示例中,要查找的名称都是单个标记。如果这是典型的,它将使工作更容易。
下面的评论说没有足够的数据来训练神经网络。给出的几个例子是非常刻板的。是否可以使用上一个和下一个标记作为预测变量来训练朴素贝叶斯分类器?
推荐阅读
- datepicker - Angular 6 和 bootstrap 4:日期选择器当前日期选择
- ssl - Quarkus 无法通过 SSL 连接到 Keycloak。配置错误或问题?
- kubernetes - 如何删除kubernetes的pvc
- reactjs - 一个反应组件更新所有其他反应组件
- java - 为什么 MariaDB 加载设置大约需要 5-8 分钟?
- php - 具有嵌套节点的递归数组解析
- r - R.shiny 中的条形图显示
- php - 提交联系表 7 时通过 PHP 设置 cookie
- javascript - 如何将选项链接到订单,包括。期权的数量?
- uml - 参与者能否与另一个用例成功后开始的用例有直接关系?