首页 > 解决方案 > 在 NLTK 中查找 n-gram 背后的想法或算法是什么?

问题描述

我正在使用 Python NLTK 包从我的语料库中生成 2-gram 和 3-gram。但我找不到 NLTK 如何从语料库中生成它们。

我在这里找到了这个:N-gram 简介:它们是什么以及我们为什么需要它们?,但我想知道是否还有其他算法可以找到 n-gram。NLTK 是否使用本文中的算法来查找 n-gram?

和往常一样,非常感谢。

标签: pythonnlpnltkn-gram

解决方案


您可以使用 zip 将句子中的单词对 / 三元组 / n 长度序列作为元组进行迭代。

for s in sentences:
    for w1, w2 in zip(s, s[1:]):
        bigram = w1, w2

推荐阅读