python - tf-idf vectorizer的use_idf参数说明
问题描述
tfidf Vectorizer中use_idf参数有什么用?文档没有给出太多关于它的解释。有人可以解释一下吗?
解决方案
如果use_idf
设置为True
(默认设置),则在转换过程中会考虑逆文档频率。这导致出现在大量文档中的标记将自动被认为比出现在较少文档中的标记信息量少。
如果将其设置为False
,则仅使用词频(文档中的字数)。
在Wikipedia上查看这个很好的解释。
推荐阅读
- typescript - 如何使通用函数可用?
- html - JQuery Stop Text Flickering when Pressing Show Less / Show More
- c++ - 我在 C++ 中遇到了这个奇怪的编译错误
- python - 从 python 脚本访问 JWT 安全的 Restful API
- python - 为什么 Python 实例变量不起作用?
- javascript - 我如何比较文本与内部的双空格(“a b” isEqual to “a b”)?
- flutter - Flutter/Dart:如何在脚手架上使用 extendBody: true 时提升 FAB 的位置?
- mongodb - 找一个有多个条件的mongoose mongodb
- kubernetes - 在为 Spring Boot 应用程序提供服务时,如何调试这个无法解释的 Openshift 3 pod 进入崩溃循环?
- java - 如何在不影响动画性能的情况下执行 JavaFX 场景图更新