首页 > 解决方案 > 西班牙 POS 标记器 CESS,我如何在我的代码中实现它

问题描述

我正在处理这个文本“处理任务”,其中涉及将句子标记化并用西班牙语标记词性。我已经编写了一个有效的代码(遵循一些在线教程),但是 POS 标签是用于英语的,并且不能正确地标记为西班牙语单词。所以,我的问题是,我怎样才能指示 python 使用西班牙 Cess 模块?

我已经导入了 NLTK 标记器、pos_tag、pos_tag_sents 和 from nltk.corpus import cess_esp as cess

我想使用这段代码,因为它确实保存了 {token,POS} 的元组,但只需向其中添加西班牙语 pos 标签。我真的很感激任何反馈。非常感谢!

df['text']
tagger = cess
texts = df['text'].tolist()
tagged_texts = pos_tag_sents(map(word_tokenize, texts))
tagged_texts
df['POS'] = tagged_texts
pos_tag_sents( df['text'].apply(word_tokenize).tolist() )
df['POS'] = pos_tag_sents( df['text'].apply(word_tokenize).tolist() ) 

标签: python-3.xnltkpos-tagger

解决方案


推荐阅读