pandas - 在 Python 中提取和删除大型数据集的停用词
问题描述
上面的大数据集Dataset有:
- 变量数 10
- 观察次数 568454
- 缺失单元格 43
- 缺失细胞 (%) < 0.1%
我想在“文本”列中执行词干提取和删除句子的停用词,并将结果保存在新列“词干”中
我使用了以下代码段,但是处理 Text 列中的整行并获得结果需要很长时间。(原始代码)
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk import PorterStemmer
stemmer = SnowballStemmer("english")
stop = stopwords.words('english')
finaldata['stemmed'] = df['Text'].apply(lambda x: [stemmer.stem(y) for y in x]) # Stem every word.
finaldata['stemmed'] = finaldata['stemmed'].apply(lambda x: ' '.join([word for word in
x.split() if word not in (stop)]))
有没有其他更有效的方法来执行此操作?
解决方案
推荐阅读
- php - PHP - 访问深层对象的深层属性时处理错误的最佳方法是什么?
- javascript - 使用 ActiveForm 在 yii2 中的电子邮件和密码字段中自动完成关闭
- conan - 如何在柯南中更改虚拟环境的名称?
- mysql - SQL - LEFT JOIN,但我希望 COUNT(*) 只计算连接的 INNER 部分的结果
- node.js - 为什么 nodeJS API 可能在本地工作但在生产中失败?
- java - 如何将一些注入和一些提供的类放入提供的类中
- java - 如何在java中的类中创建带有对象的Arraylist
- android - 运行命令“ionic cordova run android”时找不到apk架构
- asp.net - 服务器中存储的日期和时间与客户端中的时间不同
- selenium-webdriver - 使用 ShadowDom 对象在 Polymer 网页中定位 Web 元素