nlp - WordNet 意义上的每个数字是什么意思?
问题描述
WordNet senses 在 ID 中编码了一些关于感觉的信息。根据这里lemma_from_key
的方法,我们可以看到前三个数字是pos_number、lexname_index和lex_id。另外两个是什么?是否有关于(更具体地说)每个含义的文档?
解决方案
ss_type:lex_filenum:lex_id:head_word:head_id
lemma 是在对应于 pos 的 WordNet 数据库索引文件中找到的单词或搭配的 ASCII 文本。lemma 是小写的,搭配是通过将单个单词与下划线 (_) 字符连接起来形成的。
ss_type 是一位十进制整数,表示意义的同义词集类型。有关与每种同义词集类型对应的数字列表,请参见下面的同义词集类型。
lex_filenum 是一个两位十进制整数,表示包含该含义的同义词集的词典编纂者文件的名称。请参阅 lexnames(5WN) 以获取 lexicographer 文件名及其对应编号的列表。
lex_id 是一个两位十进制整数,当附加到 lemma 上时,它唯一地标识了一个词典编纂者文件中的意义。lex_id 数字通常以 00 开头,并且随着单词的其他含义添加到同一文件中而递增,尽管不要求数字是连续的或以 00 开头。请注意,值 00 是默认值,因此不存在于 lexicographer 文件中。只有非默认的 lex_id 值必须在 lexicographer 文件中显式分配。有关 lexicographer 文件格式的信息,请参见 wninput(5WN)。
只有当感觉在形容词卫星同义词集中时,head_word 才会出现。它是卫星头部同义词的第一个词的引理。
head_id 是一个两位十进制整数,当附加到 head_word 上时,它唯一地标识 lexicographer 文件中 head_word 的含义,如 lex_id 所述。仅当 head_word 存在时,此字段才有值。
推荐阅读
- flutter - 没有边距的卡片的 ListView 仍然显示卡片之间的背景
- java - 通过删除 Java 中的前导零来缩短十六进制数
- php - 当我尝试在 Laravel 中发送电子邮件时,htmlspecialchars() 期望参数 1 为字符串
- r - 将数字数据框转换为单个向量
- android - 当 AdView 显示在
- javascript - 循环遍历多维数组最内层循环
- azure - 在 Azure KeyVault 的 ARM 模板中添加 virtualNetworkRules
- sql - 仅查询符合条件的元素
- c# - 使用 NEST C# 在弹性搜索中使用多个索引进行全文搜索
- ruby-on-rails - 为什么我不能在 (OpenStruct) 对象中访问此值?