首页 > 解决方案 > 保存 word2vec 模型会导致文件混乱

问题描述

以 word2vec 文本格式保存 word2vec 会生成一个包含奇怪字符的文件。

保存的 word2vec 文本文件长什么样

文件 word2vec 的内容正在从中制作向量。

清洁和标记化的文本

在我尝试在类比测试中使用矢量文件之前,我不会出错。文字最初来自东非在线报纸。

我的代码:

word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))

我想创建嵌入的正确文本文件。

标签: word2vec

解决方案


您必须为binary参数提供一个布尔值:

word2vec.wv.save_word2vec_format(save_as_1, binary = False)

您的代码不起作用,因为任何非空字符串的计算结果都是True.


推荐阅读