首页 > 解决方案 > 使用 MWETokenizer 标记多词表达式

问题描述

我有一个以这种格式存储在熊猫系列中的多词表达式列表,('first word', 'second word')我想在这篇文章之后将它们全部添加到“MWETokenizer”如何使用 Python nltk.tokenize 将包含停用词的短语视为单个标记 .. 所以我添加了列表中的第一个元素,然后我尝试遍历列表以添加其余元素...

这是代码

from nltk.tokenize import MWETokenizer

mwetokenizer = MWETokenizer([('bite' ,'bullet')], separator='_')

size = len(MWE_series)-1

i = 1

for line in range(size):
    mwetokenizer.add_mwe((MWE_series[i]))
    i+=1

我没有收到错误并且代码有效,但只添加了第一个 MWE ('bite' ,'bullet')并忽略了循环内的其余部分mwetokenizer.add_mwe((MWE_series[i]))。我该如何解决这个问题?

标签: pythonnlpnltktokenize

解决方案


推荐阅读