python - 如何使用 NLTK 标记包含标点符号的单词
问题描述
我有一个PlainTextCorpusReader
,文字是从网络上抓取的招聘广告。我想剥离使用 NLTK 的技能。
但是我在第一个障碍中失败了,因为读者将“C#”这个词标记为“C”、“#”。
我确实想过滤掉诸如停用词和标点符号之类的噪音,所以这是一个问题。
我怎样才能解决这个问题?
解决方案
答案是在使用语料库阅读器之前清理字符串,使用 replace 方法将“C#”替换为“CSharp”之类的内容,或者训练标记器。
推荐阅读
- mysql - 如何从 MySQL 发送和接收原始字符串
- r - 如何在 R 中熔化多个列
- android - 工具栏中的搜索视图 Android 空指针异常 [ SearchView searchView = (SearchView) getActionView(searchItem); ]
- facebook - 获得 Facebook 批准的 Electron 应用程序
- python - 谷歌查询返回 503
- javascript - 如何只禁用一个编辑按钮
- ios - 基于字符串的动态UILabel
- docker - Docker 运行 ENTRYPOINT 不替换环境变量
- html - 将 2 个输入文本框并排放置
- drupal-7 - flex-slider 第一张幻灯片在移动设备上的高度错误