首页 > 解决方案 > Tensorflow:使用 Tensorflow 数据集实用程序对二元语法和 n-gram 进行标记

问题描述

许多文本分类模型和嵌入模型使用 uni-gram、bi-gram 和 n-gram 作为标记进行分析。我找到了一种方法来使用tfds.features.text.Tokenizer()从一些文本数据中提取 uni-grams 或单词。但是,我想看看是否有办法使用 Tokenizer 从文本中提取 bi-gram 或 n-gram?我检查了文档并没有看到每个 n-gram 大小的设置,但也许我错过了一些东西。

提取 n-gram 的代码来自 Tensorflow 网站上的教程之一:

tokenizer = tfds.features.text.Tokenizer()

vocabulary_set = set()

for text_tensor, _ in all_labeled_data:
    some_tokens = tokenizer.tokenize(text_tensor.numpy())
    vocabulary_set.update(some_tokens)

vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')

标签: pythontensorflownlptokenize

解决方案


推荐阅读