首页 > 解决方案 > 有没有办法从 KeyedVectors 词汇中删除一个单词?

问题描述

我需要从“gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除一个无效单词。

我尝试使用 删除它del model.vocab[word],如果我打印model.vocab单词消失了,但是当我model.most_similar使用其他单词运行时,我删除的单词仍然显示为相似。那么我怎样才能以影响不带它model.vocab的方式删除一个单词呢?model.most_similar

标签: gensimword2vecembeddingglove

解决方案


没有现有的方法支持删除单个单词。

一个快速而肮脏的解决方法可能是,在删除vocab条目的同时,注意index现有向量(在底层大向量数组中)的存在,并将kv_model.index2entity该索引处的列表中的字符串更改为某个插件值(比如说,'***DELETED***')。

然后,在执行 any 之后most_similar(),丢弃任何匹配的条目'***DELETED***'


推荐阅读