word2vec - 保存 word2vec 模型会导致文件混乱
问题描述
以 word2vec 文本格式保存 word2vec 会生成一个包含奇怪字符的文件。
文件 word2vec 的内容正在从中制作向量。
在我尝试在类比测试中使用矢量文件之前,我不会出错。文字最初来自东非在线报纸。
我的代码:
word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))
我想创建嵌入的正确文本文件。
解决方案
您必须为binary
参数提供一个布尔值:
word2vec.wv.save_word2vec_format(save_as_1, binary = False)
您的代码不起作用,因为任何非空字符串的计算结果都是True
.
推荐阅读
- azure-devops - 如何配置 Azure DevOps 发布管道以打包 PowerShell 脚本?
- cmake - 为什么这个 find_package 在较新的 CMake 版本中失败?
- angular - ng-if判断多个数
- wordpress - 重定向到贝宝结帐页面
- python - luigi - 如何不在文件之间而是在任务之间创建依赖关系?(或如何不涉及输出方法)
- python - Pandas 在使用 python 3.6 创建新环境后给出 KeyError:0
- logstash - Logstash 过滤器,如果不为空,则从拆分数组中添加字段
- bash - 从文件开头剪切字符串并附加到 Bash 中的文件名
- c# - 如何从下拉元素中选择一个值?
- css - 如何将 CSS 页面计数器分配给变量?