machine-learning - 远程监督:基于规则的标记方法?
问题描述
我目前正在研究实体关系的东西,我发现很多论文都实施了远程监督来标记数据。我对远程监督的理解是,我们有一个既定的知识库 (KB),我们通过检查提取的实体对是否存在于 KB 中来进行“基于规则的标记”。如果实体对存在于 KB 中,则将其标记为正,否则将其标记为负。
我的问题是:
- 我是否正确理解了这个远程监督概念?
- 如果是,我不明白我们为什么要训练神经网络来对基于规则的系统进行分类?例如,如果将来我们得到包含实体的新句子,并且我们想检查它们是否相互关联,我们为什么不直接参考知识库呢?为什么我们要训练实体关系呢?
谢谢
解决方案
远程监督是使用基于规则的启发式方法来生成标记数据的方法,然后将生成的标记数据用于训练模型(通常是神经网络)。
知识库 (KB) 可以用作基于规则的启发式。正如 Nathan McCoy 所说,知识库通常不完整,该模型将使您能够检测到知识库中不存在的实体之间的关系。
Snorkel是为远程监督而开发的工具的一个示例
推荐阅读
- java - 从 JSONArray 的一个元素创建 Java Array
- angular - Angular 7 Universal:无法将简单的 Http 请求加载到 Express 服务器(SSR)
- amazon-web-services - 为 API 网关的用户使用 API 密钥对
- php - 为什么使用 PHP 在 MySQLi 中运行 multi_query 后显示所有记录不起作用但单个查询可以?
- urbancode - IBM UCD - 目录偏移
- python - 在命令行中执行 Jupyter notebook
- vb.net - 将 VS 2005 项目转换为 VS 2017 后的类实例化问题
- angular - 能够以角度反应形式在表格中动态添加和删除行
- html - Webstorm 代码检查无法解析服务文件
- c# - 尝试在 Unity 中制作火车但遇到一些问题