python - 中文文本的 TF-IDF 算法
问题描述
我正在对中文文本进行 TF-IDF,并在文本中搜索前 10 个常用词。
当我获得前 10 个词时,我会看到一些无意义的词,例如“成为”、“表示”等。
有什么方法只能得到有意义的单词吗?
我正在使用“jieba”将中文句子切割成单词
解决方案
像“成为”、“表示”这样的词就是我们所说的停用词。在许多情况下,它们是在句子中提供很少意义的常用词,例如英语中的“a”和“the”。
有时需要在执行分析之前删除这些停用词,尤其是对于 TF-IDF,因为它可能会导致您所看到的毫无意义的结果。
Jieba似乎没有删除停用词的功能,但genediazjr收集了相当全面的中文停用词列表。您可以在 TF-IDF 分析之前将其导入并从原始文本中删除这些停用词。
推荐阅读
- bash - BASH 缩短文件名包含屏幕截图
- gradle - Gradle monobuild 和所有 gradle 复合构建的 jar 文件映射
- c - C - 不能添加一个链表
- ios - 将 UIView 添加到 UIWindow 的子视图时未检测到画外音
- c# - JSON 值无法转换为 System.String。路径:$[0].Price | 行号:4 | 字节位置行内:16
- keycloak - Keycloak 正在从 Location 标头中的我的 redirect_uri 中剥离端口。为什么?
- django - Django 和 Apache WSGIScriptAlias 不处理深层 URL
- python - 使用 concurrent.futures 每秒并行调用一个 fn
- javascript - 收听联系电子邮件地址 JS
- javascript - 为什么在 IIFE 的 return 中声明的函数是这样命名的?