python - NLTK pos tagger 可以正确识别收缩吗?
问题描述
我想知道在将给定文本发送到 NLTK 的 pos 标记器之前是否需要编写一个去收缩函数。我不愿意对单词进行标记,因为它们最终可能会像 (don't='do',"'nt") 一样,我怀疑这会使 pos 标记更加困难。
简而言之,我的问题是:nltk 的 pos 标记器是否识别大多数收缩(根据我有限的经验,它似乎在没有词标记化的情况下工作得很好)?单词标记化(相对于简单的单词拆分)会改善还是削弱这个过程?我写一个去收缩函数会更容易吗?是否有其他识别收缩的 pos 标记器?
example_text="我不能也不会去公园,因为我不喜欢草。"
解决方案
推荐阅读
- mysql - 如何从一列包含用逗号分隔的值的特定表中进行选择 [SQL]
- python - 为什么我的第二个字符串替换正在执行但第一个没有?
- javascript - Docker compose:从不同容器中的前端 javascript 请求到达后端
- flutter - 我需要将数据从小部件传递到新的小部件而不是 Flutter 中的屏幕
- laravel - Laravel 使用 delete() 调用删除错误的模型
- apache-kafka - KSQL 创建表作为选择
- python - 如何在rasa中的按钮上显示来自API的图像
- r - 如何使用 R 解析固定的自由文本
- c# - WPF:当我关闭所有窗口时,如何保持父窗口打开或重新打开它?
- excel - 编写一个excel宏来计算两个不同范围的总和,这将一一检查5000行。如何减少运行时间?