首页 > 解决方案 > spacy 将 conllul 转换为 spacy json 格式

问题描述

我从 Universal Dependencies 获取数据,我主要使用印度尼西亚语(bahasa),所以我克隆了 repo:

两个 repo 都包含 bz2 文件,解压后我得到包含的文件。一切都是conllul格式。所以我尝试使用命令将其转换为 spacy 的 json 格式:

python -m spacy convert thefile.conllul .

但是,spacy 抛出错误消息:

Unknown format Can't find converter for conllul

如何进行转换?是conllulconll格式是一回事吗?如果没有,我如何转换conllulconll格式?提前谢谢

标签: nlpspacy

解决方案


好的,在回答您的问题之前,让我们先澄清一下。

以下陈述是正确的:

  • 有不同的 ConNLL 格式
  • 不同格式的共同点是它们源自CoNLL会议。
  • Spacy 通过其 CLI 为 2 种不同格式提供转换器:简单的 conll 格式和最新的 conllu 格式。您可以在此处找到有关 conll 格式的更多信息,并此处找到有关 conllu 格式的更多信息
  • Conllul 是一种不同的数据格式,于 2018 年推出。您可以在此处阅读更多信息
  • Spacy 不支持 conllul 和 json 格式之间的直接转换。

考虑到所有这些,我想您的问题的答案是对您的语言使用 conllu 格式,这是使用 spacy 的自然语言数据的标准方法。我发现在您的语言的 ud 树库集合中有格式的数据。您可以从这里下载数据,然后使用 spacy 转换器将它们转换为 json。

我真的希望它有所帮助。:)


推荐阅读