machine-learning - 远程监督：基于规则的标记方法？

我目前正在研究实体关系的东西，我发现很多论文都实施了远程监督来标记数据。我对远程监督的理解是，我们有一个既定的知识库 (KB)，我们通过检查提取的实体对是否存在于 KB 中来进行“基于规则的标记”。如果实体对存在于 KB 中，则将其标记为正，否则将其标记为负。

我的问题是：

我是否正确理解了这个远程监督概念？
如果是，我不明白我们为什么要训练神经网络来对基于规则的系统进行分类？例如，如果将来我们得到包含实体的新句子，并且我们想检查它们是否相互关联，我们为什么不直接参考知识库呢？为什么我们要训练实体关系呢？

谢谢

标签： machine-learningnlpdata-sciencenamed-entity-recognition

远程监督是使用基于规则的启发式方法来生成标记数据的方法，然后将生成的标记数据用于训练模型（通常是神经网络）。

知识库 (KB) 可以用作基于规则的启发式。正如 Nathan McCoy 所说，知识库通常不完整，该模型将使您能够检测到知识库中不存在的实体之间的关系。

Snorkel是为远程监督而开发的工具的一个示例