首页 > 解决方案 > WordNet 意义上的每个数字是什么意思?

问题描述

WordNet senses 在 ID 中编码了一些关于感觉的信息。根据这里lemma_from_key的方法,我们可以看到前三个数字是pos_numberlexname_indexlex_id。另外两个是什么?是否有关于(更具体地说)每个含义的文档?

标签: nlpwordnet

解决方案


ss_type:lex_filenum:lex_id:head_word:head_id

lemma 是在对应于 pos 的 WordNet 数据库索引文件中找到的单词或搭配的 ASCII 文本。lemma 是小写的,搭配是通过将单个单词与下划线 (_) 字符连接起来形成的。

ss_type 是一位十进制整数,表示意义的同义词集类型。有关与每种同义词集类型对应的数字列表,请参见下面的同义词集类型。

lex_filenum 是一个两位十进制整数,表示包含该含义的同义词集的词典编纂者文件的名称。请参阅 lexnames(5WN) 以获取 lexicographer 文件名及其对应编号的列表。

lex_id 是一个两位十进制整数,当附加到 lemma 上时,它唯一地标识了一个词典编纂者文件中的意义。lex_id 数字通常以 00 开头,并且随着单词的其他含义添加到同一文件中而递增,尽管不要求数字是连续的或以 00 开头。请注意,值 00 是默认值,因此不存在于 lexicographer 文件中。只有非默认的 lex_id 值必须在 lexicographer 文件中显式分配。有关 lexicographer 文件格式的信息,请参见 wninput(5WN)。

只有当感觉在形容词卫星同义词集中时,head_word 才会出现。它是卫星头部同义词的第一个词的引理。

head_id 是一个两位十进制整数,当附加到 head_word 上时,它唯一地标识 lexicographer 文件中 head_word 的含义,如 lex_id 所述。仅当 head_word 存在时,此字段才有值。

来自:https ://wordnet.princeton.edu/documentation/senseidx5wn


推荐阅读