python - 当我已经设置了文档频率上限时,不删除停用词是不是很糟糕?
问题描述
我正在使用sklearn.feature_extraction.text.TfidfVectorizer
. 我正在处理文本。删除停用词似乎是标准的。但是,在我看来,如果我已经对文档频率设置了上限,这意味着我不会包含在文档中占很大比例的标记(例如max_df=0.8
),那么删除停用词似乎没有必要。从理论上讲,停用词是经常出现的词,应该被排除在外。这样,我们就不必就停用词列表中包含的内容进行辩论,对吗?我的理解是,对于哪些词的使用频率足够高,以至于它们应该被视为停用词,存在分歧,对吧?例如,scikit-learn 在其内置的英语停用词列表中包含“whereby”。
解决方案
你说的对。它可能是停用词的定义。但是,不要忘记在第一阶段删除停用词的一个原因是防止对它们进行计数并减少计算时间。
请注意,您对停用词的直觉是正确的。
推荐阅读
- r-markdown - 无法使用 Rmarkdown 编织
- c++ - pthread FIFO调度不是严格确定的吗?
- javascript - pubnup 视频聊天在远程网络上不起作用
- javascript - 如何在javascript中检查对象的属性数组是否为空
- java - 我得到一个通用链表的空指针异常?
- codeigniter - 如何在 drop 函数中获取标题、开始和结束数据
- d3.js - D3JS 从数组数据中绘制折线图(数据未定义错误)
- c - 虽然在C中的一个变量中循环多个输入
- image - Imagewriter 只执行最后一次调用
- excel - 使用 vba 从 Sharepoint 文件夹和子文件夹中获取 excel 文件路径