python - 为什么 gensim FastText 模型的大小比 Facebook 的原生 Fasttext 模型小?
问题描述
似乎Gensim 在FastText 中的实现导致模型大小比Facebook 的原生实现更小。100万字的语料,fasttext原生模型为6GB,而gensim fasttext模型大小仅为68MB。
是否有任何存储在 Facebook 实现中的信息不存在于 Gensim 的实现中?
解决方案
请说明哪些模型产生了这种比较,或者使用了什么过程。它可能有错误/误解。
与“语料库”大小相比,模型的大小受唯一词(和字符 n-gram 桶)数量的影响更大。
Gensim 训练模型或原生 Facebook FastText 训练模型的保存大小FastText
应该大致相同。确保包含由 Gensim 创建的所有附属原始numpy
文件(结尾.npy
,以及主保存文件).save()
- 因为所有这些文件都需要重新.load()
构建模型!
同样,如果您要将 Facebook FastText 模型加载到 Gensim 中,然后使用 Gensim 的.save()
,两种替代格式占用的总磁盘空间应该非常接近。
推荐阅读
- json - 比较 2 个 JSON 并根据 Powershell 中的条件从其中一个中检索子集
- batch-file - 尝试在 .bat 文件中运行多个命令
- html - 具有粘性 CSS 属性的菜单会导致弹出窗口在 XY 偏移处偏离位置
- function - %rbp 与程序集中的返回地址?
- c# - 旋转时的相机抖动(不是移动)
- python - 确定一个粒子是否在一个由网格的四个节点指定的盒子中
- r - 增加列中的下一个值,以便所有值都根据 R 中的唯一 ID 列增加
- r - "Warning: Error in : Tibble columns must have compatible sizes." when adding hoverinfo to filtered plot
- powershell - 在 Excel 列中搜索字符串并在 PowerShell 中删除列
- python - TypeError: __array__() 接受 1 个位置参数但给出了 2 个?