nlp - 我正在寻找用于技术产品审查的荷兰语标记器
问题描述
我正在尝试为荷兰语 NLP 问题找出更好的文本清理方法。我使用荷兰语版本的 pos 标签和 nltk 来删除停用词。但我没有得到想要的结果。
解决方案
你试过这种荷兰语的方法吗?
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
quadgrams=ngrams(alpino.words(),4)
for i in quadgrams:
print(i)
推荐阅读
- tensorflow - model.execute(dict)中提供的dict['ToFloat']的shape必须是[]
- url - 如何在 VS Code 中更改 LocalHost URL
- audio - 如何在 Ffmpeg 中将音频速度设置为 0.3?
- gnuradio - 如何在 GNU-radio 中设置 USRP 天线
- excel - VBA正则表达式反向查找特殊字符
- wpf - 如何在wpf中删除anchorItem
- r - 运行回归,其中整个列在 R 中包含 NA
- python - 如何从数据框上的文本字段中删除松散的字母
- javascript - 使用方法 vanilla java 脚本访问对象中的布尔值
- javascript - 在 Redux 中将道具传递给动作创建者