首页 > 解决方案 > 标记荷兰语单词

问题描述

阅读这篇文章,我发现我可以使用荷兰语句子标记器,如下所示:

nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')

但是有没有办法使用荷兰语单词标记器?英文版(默认的“punkt”)似乎可以工作,但我猜它在某些时候可能会出错。

标签: pythonpython-3.xnlpnltk

解决方案


文档中:

nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)

似乎您可以指定语言:

nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')

还要注意,'punkt' 是一个句子标记器,它会将文档分割成句子。nltk.word_tokenize执行平底船,然后执行分词器。

或者,您可以检查spacy


推荐阅读