首页 > 解决方案 > 为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小?

问题描述

似乎Gensim 在FastText 中的实现导致模型大小比Facebook 的原生实现更小。100万字的语料,fasttext原生模型为6GB,而gensim fasttext模型大小仅为68MB。

是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中?

标签: pythonmachine-learningnlpgensimfasttext

解决方案


请说明哪些模型产生了这种比较,或者使用了什么过程。它可能有错误/误解。

与“语料库”大小相比,模型的大小受唯一词(和字符 n-gram 桶)数量的影响更大。

Gensim 训练模型或原生 Facebook FastText 训练模型的保存大小FastText应该大致相同。确保包含由 Gensim 创建的所有附属原始numpy文件(结尾.npy,以及主保存文件).save()- 因为所有这些文件都需要重新.load()构建模型!

同样,如果您要将 Facebook FastText 模型加载到 Gensim 中,然后使用 Gensim 的.save(),两种替代格式占用的总磁盘空间应该非常接近。


推荐阅读