python - 如何使用 TF-ID 从 3000 个文档中找到最重要的 300 个单词?
问题描述
我有一组 3000 个文档,我想从所有文档中选择前 300 个重要单词。我使用 TF-ID 实现来获取使用 TF-ID Vectorizer 的所有文档中单词的分数。
但我不知道如何使用这个 Scorematrix 最终得到最重要的 300 个单词?
沿着列轴取分数矩阵的平均值,然后选择那些具有最高平均 TF-ID 分数的词,这是一个好方法吗?
解决方案
推荐阅读
- java - 如何在 Windows 10 中计算 Java 代码的能耗(焦耳)
- python - 使用包的 Python 项目中的 ModuleNotFoundError
- java - 更改位置引擎请求间隔
- python - Doc2Vec - 在测试数据中查找文档相似性
- rust - 将非静态生命周期传递给 Rocket 的管理
- java - 我可以在开始活动后结束数据库事务吗?
- excel - 如果单元格值为真或仅等于数字,则运行 VBA 代码
- ansible - 类似于 yum_repository 的 aws extras 的 Ansible 模块
- strapi - Strapi 插件路由默认权限
- c# - 如何防止组合框选择更改事件的重复方法?