首页 > 解决方案 > 在 python 中删除不重要的单词(收缩、连词、停用词)

问题描述

我想从文本文件中删除缩写,不一定是因为撇号,但就我而言,我不需要这些类型的单词。

我知道您可以使用以下收缩包将它们扩展为完整的单词:

import contractions

fixed_conts = contractions.fix(text)

但是,这不会删除它们。我知道我可以列出一个巨大的清单并通过蛮力来完成,但我只是想知道那里是否有更优雅的东西,比如任何包装推荐

基本上我想要的示例输出是:

不是这个

He isn't scrumming with us today - > He is not scrumming with us today 

但相反,这

He scrumming today

这是一个糟糕的例子,但它基本上是为了帮助寻找独特的单词,这是更大功能的一部分。

标签: pythonpython-3.x

解决方案


您可以创建一个包含所有缩写的列表,并创建一个没有该列表中任何单词的新文本

contractions = ["you're", "aren't", ...]
cleaned_up = [word for word in text if word not in contractions]

cleaned_up = " ".join(cleaned_up)

推荐阅读