首页 > 解决方案 > 有预训练的 Gensim 短语模型吗?

问题描述

是否有预训练Gensim短语模型?如果没有,是否可以使用预训练的词嵌入进行逆向工程并创建短语模型?

我正在尝试将GoogleNews-vectors-negative300.bin与 Gensim 的Word2Vec. 首先,我需要将我的单词映射成短语,以便我可以从 Google 的预训练嵌入中查找它们的向量。

我搜索了 Gensim 的官方文档,但找不到任何信息。谢谢!

标签: pythonmachine-learninggensimword-embeddingphrase

解决方案


我不知道有人共享Phrases模型。任何此类模型都会对预处理/标记化步骤以及创建者使用的特定参数非常敏感。

除了高级算法描述之外,我还没有看到谷歌对输入GoogleNews2013 词向量的数据所做的标记化/规范化/短语组合的确切选择已在任何地方记录。可以通过查看存在的标记来对预处理进行一些猜测,但我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿他们的 unigram 标记化,然后推测性地将 unigram 字符串组合成更长的 multigram,直到某个最大值,检查这些组合是否存在,如果不存在,则恢复为 unigram(或存在的最大组合)。如果天真地完成这可能会很昂贵,但如果真的很重要,则可以进行优化 - 特别是对于更频繁的单词的某些子集 - 因为该GoogleNews集合似乎遵循以降频列出单词的约定。

(总的来说,虽然它是一组快速简单的词向量,但我认为GoogleNews有点过度依赖。它将缺乏自 2013 年以来发展起来的词/短语和新意义,并且它确实捕捉到的任何含义都是确定的由 2013 年之前的新闻文章...可能与其他领域中的主要词义不匹配。如果您的领域不是专门的新闻,并且您有足够的数据,请决定您自己的领域特定标记化/组合可能会表现更好。)


推荐阅读