首页 > 解决方案 > Grakn:如何从文本集合中构建知识图谱?

问题描述

我的笔记本中有几个文档(pdf 和 txt),我想使用 Grakn 构建一个知识图谱。

通过谷歌我找到了博客,但没有文档或自述文件教如何做到这一点。

也写在博客“可以在我们的 GitHub 存储库上找到挖掘文本的脚本,但我无法理解我必须做什么。

有人可以建议我如何使用 Grakn 从文本中构建知识图谱吗?

标签: vaticle-typedb

解决方案


举一个如何从文本集合到知识图谱的示例,让我们假设您的所有文本都与某个知识领域有关-在您提到的博客文章的示例中,我们正在处理生物医学研究出版物。

第一步可能是在文本中找到实体或定义的“事物”。以生物医学为例,我们可以寻找出版物中提到的药物和基因。这称为命名实体识别 (NER),一种应用于文本挖掘的技术。

如果在同一出版物中经常提到某种药物作为特定基因,它们“同时出现”并且可能以某种方式相关。这将是关系的一个例子。自动提取它们之间的确切关系是一个难题,称为关系提取 (RE)。

NER 和 RE 的解决方案通常是特定领域的(从字典术语的简单匹配到 AI 模型)。

如果您对文本挖掘感兴趣,那么开始学习 python 的一个好地方是NLTK

知识图的想法是将定义的事物(称为实体)置于定义的相互关系中以创建上下文。在您拥有在所有文档中找到的实体列表以及它们的关系(如上例中,文档中的共现甚至单个句子)之后,您可以定义架构并上传实体和关系到 grakn 并使用其所有功能来分析您的数据。

有关如何将 grakn 与已提取数据一起使用的教程,请参见此处


推荐阅读