首页 > 解决方案 > TfidfVectorizer 的替代方案

问题描述

模块的TfidfVectorizer功能有什么替代品吗?sklearn.feature_extraction.text我听说过 fastText 和 GloVe,但无法很好地解释如何使用它来矢量化文本。

编辑:基本上我有一个叫做旁白的功能,它由英语句子组成。为了将其输入任何 ML 算法,我必须将其转换为数字矩阵表示。TfIdf 是一种方式。还有其他方法可以尝试吗?(可能会或可能不会在 sklearn 下)

标签: pythonmachine-learningtext-classification

解决方案


您要查找的内容称为文本嵌入,例如,请参见this。本质上,对于您的叙述功能,您正在寻找将序列转换为向量,因此是 seq_to_vec。TfIdf 只是执行此操作的最简单方法之一,它产生稀疏(更多的组件是 =0,而不是不是)。我建议你在这里寻找一个好的起点。


推荐阅读