python - 使用 keras 分词器预处理 keras 数据集
问题描述
我正在尝试使用 keras 标记器对使用以下代码读取的数据进行一些预处理:
dataset = tf.data.Dataset.from_tensor_slices(filenames)
dataset = dataset.interleave(lambda x:
tf.data.TFRecordDataset(x).prefetch(params.num_parallel_readers),
cycle_length=params.num_parallel_readers,
block_length=1)
dataset = dataset.map(_parse_example, num_parallel_calls = params.num_parallel_calls)
tf.keras.preprocessing.text.Tokenizer
现在我有了解析的示例(_parse_example 映射函数的输出),我想使用方法对文本进行一些预处理texts_to_sequences
。但是, texts_to_sequences 需要输入 python 字符串,我在 parsed_example 中得到张量。
py_func
我可以通过使用来包装我的代码来解决它(参见下面代码中的'emb':tf.py_func..),但是我将无法序列化我的模型(根据py_func
文档)。
dataset = dataset.map(lambda features, labels:
({'window': features['window'],
'winSize': features['winSize'],
'LandingPage': features['LandingPage'],
'emb': tf.py_func(getEmb, [features['window']], tf.int32)},
tf.one_hot(labels, hparams.numClasses) ))
寻找一种方法来做到这一点(或链接到一些类似的例子)
解决方案
推荐阅读
- ios - 当我为我的 UITextField 打开安全文本输入时,文本是不可见的
- odoo - Odoo,如何覆盖扩展其域的操作(不覆盖)
- r - 将带有“##”标签的文本数据读取为 data.frame
- github - 只有在输入“用户名”和“github”时才能在 google 上找到 GitHub 页面
- java - FileWrite 没有创建新文件 Android Studio,得到 'java.io.FileNotFoundException: file.py: open failed: EROFS (Read-only file system)'
- git - 如何在 Bitbucket 中的特定提交之前删除所有提交
- python - 计算具有特定列名的列中的值
- javascript - 如何在 vue js 中动态绑定到 img 的 :src?
- vue.js - 如何使用 vue-3d-model 在 electron-vue webpack 项目中导入 .obj
- javascript - 如何始终在 div 上显示垂直滚动条