python - 如何使用 TF-ID 从 3000 个文档中找到最重要的 300 个单词？

首页 > 解决方案 > 如何使用 TF-ID 从 3000 个文档中找到最重要的 300 个单词？

问题描述

我有一组 3000 个文档，我想从所有文档中选择前 300 个重要单词。我使用 TF-ID 实现来获取使用 TF-ID Vectorizer 的所有文档中单词的分数。

但我不知道如何使用这个 Scorematrix 最终得到最重要的 300 个单词？

沿着列轴取分数矩阵的平均值，然后选择那些具有最高平均 TF-ID 分数的词，这是一个好方法吗？

标签： pythonnlptf-idftfidfvectorizer

解决方案

推荐阅读