python - 您如何将固定 len 功能写入 tfrecord
问题描述
我正在努力编写 tensorflow tfrecord 文件的基础知识。我正在用 python 中的 ndarray 编写一个简单的示例,但是由于某种原因,当我阅读它时,它需要是可变长度并将其作为 SparseTensor 读取。
这是示例
def serialize_tf_record(features, targets):
record = {
'shape': tf.train.Int64List(value=features.shape),
'features': tf.train.FloatList(value=features.flatten()),
'targets': tf.train.Int64List(value=targets),
}
return build_tf_example(record)
def deserialize_tf_record(record):
tfrecord_format = {
'shape': tf.io.VarLenFeature(tf.int64),
'features': tf.io.VarLenFeature(tf.float32),
'targets': tf.io.VarLenFeature(tf.int64),
}
features_tensor = tf.io.parse_single_example(record, tfrecord_format)
return features_tensor
任何人都可以向我解释为什么这会写入可变长度记录吗?它在代码中是固定的,但我似乎无法以 tensorflow 知道其固定的方式编写它。tensorflow 文档在这里非常可怕。任何人都可以为我澄清 API 吗?
解决方案
您应该提供更多上下文代码,例如您的build_tf_example
函数以及您的功能和目标的示例。
这是一个返回密集张量的示例:
import numpy as np
import tensorflow as tf
def build_tf_example(record):
return tf.train.Example(features=tf.train.Features(feature=record)).SerializeToString()
def serialize_tf_record(features, targets):
record = {
'shape': tf.train.Feature(int64_list=tf.train.Int64List(value=features.shape)),
'features': tf.train.Feature(float_list=tf.train.FloatList(value=features.flatten())),
'targets': tf.train.Feature(int64_list=tf.train.Int64List(value=targets)),
}
return build_tf_example(record)
def deserialize_tf_record(record):
tfrecord_format = {
'shape': tf.io.FixedLenSequenceFeature((), dtype=tf.int64, allow_missing=True),
'features': tf.io.FixedLenSequenceFeature((), dtype=tf.float32, allow_missing=True),
'targets': tf.io.FixedLenSequenceFeature((), dtype=tf.int64, allow_missing=True),
}
features_tensor = tf.io.parse_single_example(record, tfrecord_format)
return features_tensor
def main():
features = np.zeros((3, 5, 7))
targets = np.ones((4,), dtype=int)
tf.print(deserialize_tf_record(serialize_tf_record(features, targets)))
if __name__ == '__main__':
main()
- 我转换
record
为特征字典(以轻松序列化它) - 据我了解,您的每个特征都可以是一个数组(与标量值相反),因此您可以使用
FixedLenSequenceFeature
输入特征对其进行解析以构建密集张量而不是稀疏张量。
推荐阅读
- ruby-on-rails - 在哈希数组循环上创建 CSV
- laravel - `npm run dev` 导致 Windows 错误`'cross-env' 不被识别为内部或外部命令`
- r - 估计 logit 模型 R 中二元和连续系数的平均边际效应
- react-native - 当我运行expo publish时如何修复“文件”必须是一个数组?
- python - yfinance 在导入为 yf 时拒绝工作
- javascript - 日期选择器 JavaScript 的动态禁用
- python - ROS cfg 文件中的 Shebang 存在问题
- python - 浮点尾数和指数底数 2
- azure-pipelines - 如何为新管道指定不同的分支
- python-3.x - antlr4可以用来解析非常大的gzip压缩文件吗?