首页 > 解决方案 > python的函数是什么意思,基本上就是找出函数需要什么时候以及如何使用

问题描述

def tokenize_corpus(corpus, num_words=-1):
    # Fit a Tokenizer on the corpus
    if num_words > -1:
        tokenizer = Tokenizer(num_words=num_words)
    else:
        tokenizer = Tokenizer()
    tokenizer.fit_on_texts(corpus)
    return tokenizer

该功能试图做什么?我理解了“其他”之后的部分,但在此之前我无法理解,有人可以解释一下。

标签: pythonmachine-learningnlpstringtokenizer

解决方案


Tokenizer 是一个文本标记化实用程序类。

此类允许通过将每个文本转换为整数序列或向量来对文本语料库进行向量化

参数 num_words:要保留的最大单词数,基于词频。只会保留最常见的 num_words-1 个单词。

UPD:这里 num_words tokenize_corpus 参数用作标志,-1 表示不使用 num words Tokenize 参数,否则使用 [它只是不好的实现]

更多信息:https ://keras.io/api/preprocessing/text/

Coursera 教程【推荐】:https ://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX


推荐阅读