python - python的函数是什么意思,基本上就是找出函数需要什么时候以及如何使用
问题描述
def tokenize_corpus(corpus, num_words=-1):
# Fit a Tokenizer on the corpus
if num_words > -1:
tokenizer = Tokenizer(num_words=num_words)
else:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
return tokenizer
该功能试图做什么?我理解了“其他”之后的部分,但在此之前我无法理解,有人可以解释一下。
解决方案
Tokenizer 是一个文本标记化实用程序类。
此类允许通过将每个文本转换为整数序列或向量来对文本语料库进行向量化
参数 num_words:要保留的最大单词数,基于词频。只会保留最常见的 num_words-1 个单词。
UPD:这里 num_words tokenize_corpus 参数用作标志,-1 表示不使用 num words Tokenize 参数,否则使用 [它只是不好的实现]
更多信息:https ://keras.io/api/preprocessing/text/
Coursera 教程【推荐】:https ://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX
推荐阅读
- ios - 当应用程序ID包含`-`时,Fabric不会上传应用程序?
- cookies - 多语言网站的 Cookie 同意横幅
- java - 使用 BcryptEncoder 使用 Spring 安全性登录失败
- php - 具有动态参数/参数数量的匿名函数
- php - 仅在表单下拉 symfony 3.4 上返回唯一值
- python - 它称我的 pygame 无效
- mysql - 将以下 MDX 查询更改为 MYSQL 查询
- iis - 出现错误 800cce05 - 使用 cdosys.dll 时
- javascript - 如何从平面数据创建 javascript json 多维树
- json - 如何在 BASH 脚本中处理 nodejs JSON?