首页 > 解决方案 > 如何使用 TF-ID 从 3000 个文档中找到最重要的 300 个单词?

问题描述

我有一组 3000 个文档,我想从所有文档中选择前 300 个重要单词。我使用 TF-ID 实现来获取使用 TF-ID Vectorizer 的所有文档中单词的分数。

但我不知道如何使用这个 Scorematrix 最终得到最重要的 300 个单词?

沿着列轴取分数矩阵的平均值,然后选择那些具有最高平均 TF-ID 分数的词,这是一个好方法吗?

标签: pythonnlptf-idftfidfvectorizer

解决方案


推荐阅读