python - Tensorflow:使用 Tensorflow 数据集实用程序对二元语法和 n-gram 进行标记
问题描述
许多文本分类模型和嵌入模型使用 uni-gram、bi-gram 和 n-gram 作为标记进行分析。我找到了一种方法来使用tfds.features.text.Tokenizer()
从一些文本数据中提取 uni-grams 或单词。但是,我想看看是否有办法使用 Tokenizer 从文本中提取 bi-gram 或 n-gram?我检查了文档并没有看到每个 n-gram 大小的设置,但也许我错过了一些东西。
提取 n-gram 的代码来自 Tensorflow 网站上的教程之一:
tokenizer = tfds.features.text.Tokenizer()
vocabulary_set = set()
for text_tensor, _ in all_labeled_data:
some_tokens = tokenizer.tokenize(text_tensor.numpy())
vocabulary_set.update(some_tokens)
vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')
解决方案
推荐阅读
- jquery - jQuery - 将单个表格行拆分为三列的行
- r - 如何转换地图窗口和数据点的 CRS 以匹配 SF 对象?
- sql - 如何在 SQL 查询中为方程定义变量
- tensorflow - 如何临时堆叠 Tensorflow 数据集的图像,然后对它们进行批处理
- jquery - 如果按钮数据属性等于 jQuery 隐藏此
- entity-framework - EFcore3.1 get values from sys.master_files and SERVERPROPERTY
- regex - 在标记之间更改子组中的分隔符并在perl 5中拆分
- karate - 在空手道中跨多个场景和场景大纲文件使用的 Oauth 令牌
- python - 在python中获取日志级别
- powerbi - 在 Power BI 中计算比率时加 1 时筛选器不起作用