gensim - 有没有办法从 KeyedVectors 词汇中删除一个单词?
问题描述
我需要从“gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除一个无效单词。
我尝试使用 删除它del model.vocab[word]
,如果我打印model.vocab
单词消失了,但是当我model.most_similar
使用其他单词运行时,我删除的单词仍然显示为相似。那么我怎样才能以影响不带它model.vocab
的方式删除一个单词呢?model.most_similar
解决方案
没有现有的方法支持删除单个单词。
一个快速而肮脏的解决方法可能是,在删除vocab
条目的同时,注意index
现有向量(在底层大向量数组中)的存在,并将kv_model.index2entity
该索引处的列表中的字符串更改为某个插件值(比如说,'***DELETED***'
)。
然后,在执行 any 之后most_similar()
,丢弃任何匹配的条目'***DELETED***'
。
推荐阅读
- swift - SwiftUI: compiler is unable to type-check this expression in reasonable time; try breaking up the expression into distinct sub-expressions
- python - 按顺序拆分字符串每个可能的拆分
- java - Pyspark:出现错误 py4j.protocol.Py4JJavaError:调用 o6604.save 时出错。\n:java.lang.OutOfMemoryError:Java 堆空间
- html - 如何在 SSRS 中设置报告以在单个 .rdl 中以 HTML 和 PDF 输出查看
- python - 下载 yolov3 的预训练权重时出错
- javascript - 从 Redux 迁移到 Redux 工具包
- javascript - 无法在 Google Drive 插件中生成缩略图
- java - 带阈值的最大和子序列
- html - 如何在每页打印浏览器后完全打印一次背景图像?
- html - 我正在尝试从 mls 网站上抓取房地产列表,并且很幸运能喝到漂亮的汤,也许硒会更容易?