首页 > 解决方案 > 在 Python 中提取和删除大型数据集的停用词

问题描述

在此处输入图像描述

上面的大数据集Dataset有:

  1. 变量数 10
  2. 观察次数 568454
  3. 缺失单元格 43
  4. 缺失细胞 (%) < 0.1%

我想在“文本”列中执行词干提取和删除句子的停用词,并将结果保存在新列“词干”中

我使用了以下代码段,但是处理 Text 列中的整行并获得结果需要很长时间。(原始代码

from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk import PorterStemmer
stemmer = SnowballStemmer("english")
stop = stopwords.words('english')
finaldata['stemmed'] = df['Text'].apply(lambda x: [stemmer.stem(y) for y in x]) # Stem every word.
finaldata['stemmed'] = finaldata['stemmed'].apply(lambda x: ' '.join([word for word in 
x.split() if word not in (stop)]))

有没有其他更有效的方法来执行此操作?

标签: pandasnlpstop-wordsstemming

解决方案


推荐阅读