nlp - spacy 将 conllul 转换为 spacy json 格式
问题描述
我从 Universal Dependencies 获取数据,我主要使用印度尼西亚语(bahasa),所以我克隆了 repo:
两个 repo 都包含 bz2 文件,解压后我得到包含的文件。一切都是conllul格式。所以我尝试使用命令将其转换为 spacy 的 json 格式:
python -m spacy convert thefile.conllul .
但是,spacy 抛出错误消息:
Unknown format
Can't find converter for conllul
如何进行转换?是conllul
和conll
格式是一回事吗?如果没有,我如何转换conllul
为conll
格式?提前谢谢
解决方案
好的,在回答您的问题之前,让我们先澄清一下。
以下陈述是正确的:
- 有不同的 ConNLL 格式
- 不同格式的共同点是它们源自CoNLL会议。
- Spacy 通过其 CLI 为 2 种不同格式提供转换器:简单的 conll 格式和最新的 conllu 格式。您可以在此处找到有关 conll 格式的更多信息,并在此处找到有关 conllu 格式的更多信息
- Conllul 是一种不同的数据格式,于 2018 年推出。您可以在此处阅读更多信息
- Spacy 不支持 conllul 和 json 格式之间的直接转换。
考虑到所有这些,我想您的问题的答案是对您的语言使用 conllu 格式,这是使用 spacy 的自然语言数据的标准方法。我发现在您的语言的 ud 树库集合中有格式的数据。您可以从这里下载数据,然后使用 spacy 转换器将它们转换为 json。
我真的希望它有所帮助。:)
推荐阅读
- ios - 如何根据设备屏幕大小调整集合视图中单元格的大小?
- php - 对 DataTable 的 DateTime 字段进行排序
- vba - 如何使用 VBA 保存 Excel 加载项
- java - Gradle 使用 2 个不同的 JDK
- sql-server - Sql server 索引使用取决于列值
- css - 如何更改禁用光标
- apache-camel - 骆驼豆绑定:从变量中设置参数
- javascript - 防止客户端编辑功能的最佳实践?
- android - 在 ArFragment 中隐藏加载屏幕
- google-chrome - 清除 Chrome 以使 Google Tag Assistant 重新加载?