首页 > 解决方案 > 德语单词的 spaCy 向量的差异文档和实现?

问题描述

根据文件

spaCy 的小型模型(所有以 sm 结尾的包)不附带词向量,仅包含上下文相关的张量。[...] 单个标记不会分配任何向量。

但是当我使用de_core_news_sm模型时,标记确实有x.vector和的条目x.has_vector=True

看起来这些是 context_vectors,但据我了解,文档只能通过vector属性访问词向量,而sm模型应该没有。为什么这适用于“小型模型”?

标签: documentationspacyword-embedding

解决方案


has_vector行为与您预期的不同。

这在对 github 上提出的问题的评论中进行了讨论。要点是,由于向量可用,True即使这些向量是上下文向量也是如此。请注意,您仍然可以使用它们,例如计算相似度。

来自 spaCy 贡献者Ines的引述:

我们一直在讨论 has_vector 在这种情况下应该如何表现。有一个向量,所以让它返回 False 会产生误导。同样,如果模型没有预先训练好的词汇,从技术上讲,所有词位都是 OOV。

已宣布 2.1.0 版包含德语单词向量。


推荐阅读