python - 为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小？

似乎Gensim 在FastText 中的实现导致模型大小比Facebook 的原生实现更小。100万字的语料，fasttext原生模型为6GB，而gensim fasttext模型大小仅为68MB。

是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中？

标签： pythonmachine-learningnlpgensimfasttext

请说明哪些模型产生了这种比较，或者使用了什么过程。它可能有错误/误解。

与“语料库”大小相比，模型的大小受唯一词（和字符 n-gram 桶）数量的影响更大。

Gensim 训练模型或原生 Facebook FastText 训练模型的保存大小FastText应该大致相同。确保包含由 Gensim 创建的所有附属原始numpy文件（结尾.npy，以及主保存文件）.save()- 因为所有这些文件都需要重新.load()构建模型！

同样，如果您要将 Facebook FastText 模型加载到 Gensim 中，然后使用 Gensim 的.save()，两种替代格式占用的总磁盘空间应该非常接近。