首页 > 解决方案 > 如何在 Python 中标记一组单词

问题描述

我正在用 python 开发一个应用程序,它根据上传的简历给出工作推荐。我正在尝试在进一步处理之前对简历进行标记。我想标记一组单词。例如,当我标记数据时,数据科学是一个关键字,我将分别获取数据科学。如何克服这种情况。是否有任何库可以在 python 中进行这些提取?

标签: pythonnlptokenize

解决方案


看起来您正在寻找生成n-gram(特别是 bi-gram)。如果是这种情况,以下是实现此目的的一种方法:

from nltk import ngrams
resume = '... working in the data science field for years ...'
n = 2
bigrams = ngrams(resume.split(), n)
for grams in bigrams:
  print grams

推荐阅读