首页 > 解决方案 > 如何使用 NLTK 标记包含标点符号的单词

问题描述

我有一个PlainTextCorpusReader,文字是从网络上抓取的招聘广告。我想剥离使用 NLTK 的技能。

但是我在第一个障碍中失败了,因为读者将“C#”这个词标记为“C”、“#”。

我确实想过滤掉诸如停用词和标点符号之类的噪音,所以这是一个问题。

我怎样才能解决这个问题?

标签: pythonnltktokenize

解决方案


答案是在使用语料库阅读器之前清理字符串,使用 replace 方法将“C#”替换为“CSharp”之类的内容,或者训练标记器。


推荐阅读