python - 在 NLTK 中查找 n-gram 背后的想法或算法是什么?
问题描述
我正在使用 Python NLTK 包从我的语料库中生成 2-gram 和 3-gram。但我找不到 NLTK 如何从语料库中生成它们。
我在这里找到了这个:N-gram 简介:它们是什么以及我们为什么需要它们?,但我想知道是否还有其他算法可以找到 n-gram。NLTK 是否使用本文中的算法来查找 n-gram?
和往常一样,非常感谢。
解决方案
您可以使用 zip 将句子中的单词对 / 三元组 / n 长度序列作为元组进行迭代。
for s in sentences:
for w1, w2 in zip(s, s[1:]):
bigram = w1, w2
推荐阅读
- pdf - 使用 ImageMagick 拆分 pdf 文档
- scala - 是否可以让 intellij 在断点处将变量/表达式打印到控制台?
- amazon-s3 - Amazon S3:如何安全地上传多个文件?
- android - 我正在开发一个应用程序来测试下载/上传速度。在速度比较方面面临一个主要问题
- html - 如何应用边距以使元素不超过 100% 宽度?
- rest - 如何正确地发出 REST API 请求以在 Magento 2 的日期范围内获取完整订单
- drupal-7 - Drupal 7 自定义模块的严格标准问题
- postgresql - Postgres损坏错误:具有相同主键的重复行
- typo3 - TYPO3 Powermail - 在复选框标签或标题中添加链接的方法
- javascript - 使角度 MatDialog 居中