vaticle-typedb - Grakn:如何从文本集合中构建知识图谱?
问题描述
我的笔记本中有几个文档(pdf 和 txt),我想使用 Grakn 构建一个知识图谱。
通过谷歌我找到了博客,但没有文档或自述文件教如何做到这一点。
也写在博客“可以在我们的 GitHub 存储库上找到挖掘文本的脚本”,但我无法理解我必须做什么。
有人可以建议我如何使用 Grakn 从文本中构建知识图谱吗?
解决方案
举一个如何从文本集合到知识图谱的示例,让我们假设您的所有文本都与某个知识领域有关-在您提到的博客文章的示例中,我们正在处理生物医学研究出版物。
第一步可能是在文本中找到实体或定义的“事物”。以生物医学为例,我们可以寻找出版物中提到的药物和基因。这称为命名实体识别 (NER),一种应用于文本挖掘的技术。
如果在同一出版物中经常提到某种药物作为特定基因,它们“同时出现”并且可能以某种方式相关。这将是关系的一个例子。自动提取它们之间的确切关系是一个难题,称为关系提取 (RE)。
NER 和 RE 的解决方案通常是特定领域的(从字典术语的简单匹配到 AI 模型)。
如果您对文本挖掘感兴趣,那么开始学习 python 的一个好地方是NLTK。
知识图的想法是将定义的事物(称为实体)置于定义的相互关系中以创建上下文。在您拥有在所有文档中找到的实体列表以及它们的关系(如上例中,文档中的共现甚至单个句子)之后,您可以定义架构并上传实体和关系到 grakn 并使用其所有功能来分析您的数据。
有关如何将 grakn 与已提取数据一起使用的教程,请参见此处
推荐阅读
- java - 为什么我在 AWS Cloud9 中运行的 java spring 项目运行一段时间后关闭?
- javascript - Firebase 云功能无法正常工作?
- xml - 使用 XQuery 在一个文件中合并相似的 XML 结构
- c++ - 在 C++ 中带有顺序括号的 Emacs 缩进
- flutter - 颤振保持客户端活着不起作用
- php - Laravel 6.x 的次要版本是否考虑 LTS?
- c# - 查找调用特定 DLL/方法的程序
- latex - LaTex 使用 MikTex 时未定义的控制序列
- javascript - 缩放页面时停止移动元素
- c# - C# 如何以 Pivot 格式显示我的数据列表