首页 > 解决方案 > 在 tensorflow 分词器中获取词汇量的大小

问题描述

标记化后如何获得(未知数据集的)词汇表的大小?

那是代码:

f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in  f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)

tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))

我需要知道词汇量的大小来训练我的模型。

标签: tensorflownlptokenize

解决方案


标记化的文档应该可以像字典一样访问,所以试试:

print(len(tokenized_docs))

或以半成品调试模式将其全部打印出来:

i = 0
for k,v in tokenized_docs.items():
    print("word: "+k)
    print("numeric token: "+v)
    i++
    print("token count: "+i)

推荐阅读