首页 > 解决方案 > 如何将 WIkipedia 页面与文本中提到的相应 Wikidata id 链接?

问题描述

我正在尝试构建一个数据集,其中 Wikipedia 文本用相应的 Wikidata 项进行注释。例如,

Stack Overflow 是一个面向专业和爱好者程序员的问答网站。它是Stack Exchange Network的旗舰站点,[4][5][6] 由Jeff AtwoodJoel Spolsky于 2008 年创建。[7][8] 它包含计算机编程中广泛主题的问答.[9][10][11] 它的创建是为了成为早期问答网站(例如Experts-Exchange )的更开放的替代方案。Stack Overflow 于2021 年 6 月 2 日以 18 亿美元的价格出售给总部位于荷兰的消费互联网集团Prosus 。 [12]

在这里,粗体实体具有对应的维基百科页面和对应的维基数据 ID。

对于问答网站,我的最低要求是获得Q6635759(相应的 Wikidata id)。如果可能的话,我还想在文本中注释位置(例如20-47)或文章中的表面形式(问答网站)。

我发现了一个类似的问题,但答案已经很老了,所以我希望存在更多更新的东西。此外,由于我需要以多种语言为整个 Wikipedia 执行此操作(我正在尝试构建数据集),因此我希望存在更快的东西。在最好的情况下,我想从转储中获取此信息,无需 API 调用,但我不知道这是否可能。

标签: wikipediawikidata

解决方案


推荐阅读