python - 使用 MWETokenizer 标记多词表达式
问题描述
我有一个以这种格式存储在熊猫系列中的多词表达式列表,('first word', 'second word')
我想在这篇文章之后将它们全部添加到“MWETokenizer”如何使用 Python nltk.tokenize 将包含停用词的短语视为单个标记
.. 所以我添加了列表中的第一个元素,然后我尝试遍历列表以添加其余元素...
这是代码
from nltk.tokenize import MWETokenizer
mwetokenizer = MWETokenizer([('bite' ,'bullet')], separator='_')
size = len(MWE_series)-1
i = 1
for line in range(size):
mwetokenizer.add_mwe((MWE_series[i]))
i+=1
我没有收到错误并且代码有效,但只添加了第一个 MWE ('bite' ,'bullet')
并忽略了循环内的其余部分mwetokenizer.add_mwe((MWE_series[i]))
。我该如何解决这个问题?
解决方案
推荐阅读
- python - xlwings 在 Windows 中运行有关“没有名为 win32api 的模块”的问题
- javascript - Angular:找不到名称为“日期”的控件
- python - 使用 Selenium 和 BeautifulSoup 从网页中抓取嵌入的推文
- vue.js - [Vue 警告]:无效的道具:道具“项目”的类型检查失败。预期的数组,得到了 Promise
- jquery - 引导工具提示在表单中不起作用
- apache-kafka - 如何列出特定主题和 groupID 的 LAG 优惠
- laravel - 如何在默认响应护照中添加状态
- ajax - 使用 Ajax 的 Laravel 419 错误
- c# - AWS:找不到凭证错误
- sql - 如何优化此 JOIN 查询?