python - 在 python 中删除不重要的单词(收缩、连词、停用词)
问题描述
我想从文本文件中删除缩写,不一定是因为撇号,但就我而言,我不需要这些类型的单词。
我知道您可以使用以下收缩包将它们扩展为完整的单词:
import contractions
fixed_conts = contractions.fix(text)
但是,这不会删除它们。我知道我可以列出一个巨大的清单并通过蛮力来完成,但我只是想知道那里是否有更优雅的东西,比如任何包装推荐
基本上我想要的示例输出是:
不是这个
He isn't scrumming with us today - > He is not scrumming with us today
但相反,这
He scrumming today
这是一个糟糕的例子,但它基本上是为了帮助寻找独特的单词,这是更大功能的一部分。
解决方案
您可以创建一个包含所有缩写的列表,并创建一个没有该列表中任何单词的新文本
contractions = ["you're", "aren't", ...]
cleaned_up = [word for word in text if word not in contractions]
cleaned_up = " ".join(cleaned_up)
推荐阅读
- redis - cas redis 票务登记处
- mysql - 如何在另一个查询中传递使用 group_concat(distinct) 的查询获得的结果?
- redux - redux saga yield call throw error TypeError: Cannot read property 'ready' of null
- python - 我无法显示类实例的文档字符串
- java - 将服务上下文传递给活动
- plugins - 如何获取使用颤振相机插件拍摄的图像的 GPS 详细信息
- javascript - 无法使用 redux-persist 保存 redux 状态
- python - 无法导入 cmap.io.gct:出现导入错误
- android - 导航控制器和广播接收器
- python - 从没有换行符字符串的文本文件中读取路径 \n