tensorflow - 在 tensorflow 分词器中获取词汇量的大小
问题描述
标记化后如何获得(未知数据集的)词汇表的大小?
那是代码:
f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
我需要知道词汇量的大小来训练我的模型。
解决方案
标记化的文档应该可以像字典一样访问,所以试试:
print(len(tokenized_docs))
或以半成品调试模式将其全部打印出来:
i = 0
for k,v in tokenized_docs.items():
print("word: "+k)
print("numeric token: "+v)
i++
print("token count: "+i)
推荐阅读
- javascript - 如何在chart.js中旋转线性图形?
- c - 如何将 RFC 3339 日期时间转换为 IST?
- c# - 用于结帐和未退回项目的多个过滤器
- amazon-s3 - 使用 Lambda 在 EMR 上运行 aws cli 命令
- javascript - 如果表单中有许多文本输入(Hooks),如何提高反应性能?
- swift - 在目标上运行时 VStack 中缺少顶部元素
- python - Pandas:如何返回列在其单元格中有换行符/换行符( \n )的行?
- ios - 我怎么知道我是否连接到雪佛兰汽车上的 carplay
- c# - 更新 google firestore 数据库的任务未完成
- c++ - 渲染大量文本时如何提高 DirectWrite 性能?