首页 > 解决方案 > 当我已经设置了文档频率上限时,不删除停用词是不是很糟糕?

问题描述

我正在使用sklearn.feature_extraction.text.TfidfVectorizer. 我正在处理文本。删除停用词似乎是标准的。但是,在我看来,如果我已经对文档频率设置了上限,这意味着我不会包含在文档中占很大比例的标记(例如max_df=0.8),那么删除停用词似乎没有必要。从理论上讲,停用词是经常出现的词,应该被排除在外。这样,我们就不必就停用词列表中包含的内容进行辩论,对吗?我的理解是,对于哪些词的使用频率足够高,以至于它们应该被视为停用词,存在分歧,对吧?例如,scikit-learn 在其内置的英语停用词列表中包含“whereby”。

标签: pythonscikit-learnnlptext-miningtext-processing

解决方案


你说的对。它可能是停用词的定义。但是,不要忘记在第一阶段删除停用词的一个原因是防止对它们进行计数并减少计算时间。

请注意,您对停用词的直觉是正确的。


推荐阅读