首页 > 解决方案 > tf-idf vectorizer的use_idf参数说明

问题描述

tfidf Vectorizer中use_idf参数有什么用?文档没有给出太多关于它的解释。有人可以解释一下吗?

标签: pythonmachine-learningscikit-learntfidfvectorizer

解决方案


如果use_idf设置为True(默认设置),则在转换过程中会考虑逆文档频率。这导致出现在大量文档中的标记将自动被认为比出现在较少文档中的标记信息量少。

如果将其设置为False,则仅使用词频(文档中的字数)。

在Wikipedia上查看这个很好的解释。


推荐阅读