首页 > 解决方案 > NLTK pos tagger 可以正确识别收缩吗?

问题描述

我想知道在将给定文本发送到 NLTK 的 pos 标记器之前是否需要编写一个去收缩函数。我不愿意对单词进行标记,因为它们最终可能会像 (don't='do',"'nt") 一样,我怀疑这会使 pos 标记更加困难。

简而言之,我的问题是:nltk 的 pos 标记器是否识别大多数收缩(根据我有限的经验,它似乎在没有词标记化的情况下工作得很好)?单词标记化(相对于简单的单词拆分)会改善还是削弱这个过程?我写一个去收缩函数会更容易吗?是否有其他识别收缩的 pos 标记器?

example_text="我不能也不会去公园,因为我不喜欢草。"

标签: pythonnltk

解决方案


推荐阅读