首页 > 解决方案 > 如果我们在制作神经网络时将自己指定为输入和输出,那么 tensorflow 密集层的输出会是什么?

问题描述

我一直在为任何 Vanilla Policy Gradient 在 openAI 代码中实现神经网络(事实上,这部分几乎在所有地方都使用)。代码看起来像这样:

def mlp_categorical_policy(x, a, hidden_sizes, activation, output_activation, action_space):
    act_dim = action_space.n
    logits = mlp(x, list(hidden_sizes) + [act_dim], activation, None)
    logp_all = tf.nn.log_softmax(logits)
    pi = tf.squeeze(tf.random.categorical(logits, 1), axis=1)
    logp = tf.reduce_sum(tf.one_hot(a, depth=act_dim) * logp_all, axis=1)
    logp_pi = tf.reduce_sum(tf.one_hot(pi, depth=act_dim) * logp_all, axis=1)
    return pi, logp, logp_pi

这个多层感知器网络定义如下:

def mlp(x, hidden_sizes=(32,), activation=tf.tanh, output_activation=None):
    for h in hidden_sizes[:-1]:
        x = tf.layers.dense(inputs=x, units=h, activation=activation)
    return tf.layers.dense(inputs=x, units=hidden_sizes[-1], activation=output_activation)

我的问题是这个 mlp 函数的返回值是什么?我的意思是结构或形状。它是一个 N 维张量吗?如果是这样,它是如何作为输入的tf.random_categorical?如果没有,它只是有形状[hidden_layer2, output],那么其他层发生了什么?根据他们关于 random_categorical 的网站描述,它只需要一个二维输入。openAI的VPG算法的完整代码可以在这里找到。mlp在这里实现。如果有人能告诉我这是在做什么,我将不胜感激mlp_categorical_policy()

注意:隐藏大小为 [64, 64],动作维度为 3

谢谢和欢呼

标签: tensorflowneural-networkreinforcement-learningopenai-gym

解决方案


请注意,这是一个离散的动作空间——action_space.n每一步都有不同的可能动作,代理会选择一个。

为此,MLP 返回不同操作的 logits(它是概率的函数)。这在+ [act_dim]将 action_space 的计数附加为最终 MLP 层的代码中指定。请注意,MLP 的最后一层是输出层。输入层没有在 tensorflow 中指定,它是从输入中推断出来的。

tf.random.categorical 获取 logits 并从中采样策略操作pi,该操作以数字形式返回。

mlp_categorical_policy还返回logp,动作的对数概率a(用于分配信用),以及logp_pi,策略动作的对数概率pi


看来您的问题更多是关于 mlp 的回报。

mlp 在循环中创建一系列完全连接的层。在循环的每次迭代中,mlp使用前一层 x 作为输入创建x = tf.layers.dense(inputs=x, units=h, activation=activation)一个新层,并将其输出分配给覆盖 x,使用这条线。

因此输出与输入不同,在每次迭代中,x 都会被新层的值覆盖。这与 的编码技巧相同x = x + 1,它将 x 增加 1。这有效地将层链接在一起。

tf.layers.dense 的输出是一个大小的张量,[:,h]其中:是批量维度(通常可以忽略)。最后一层的创建发生在循环之外,可以看出这一层的节点数是act_dim(所以shape是[:,3])。您可以通过以下方式检查形状:

import tensorflow.compat.v1 as tf
import numpy as np

def mlp(x, hidden_sizes=(32,), activation=tf.tanh, output_activation=None):
    for h in hidden_sizes[:-1]:
        x = tf.layers.dense(x, units=h, activation=activation)
    return tf.layers.dense(x, units=hidden_sizes[-1], activation=output_activation)

obs = np.array([[1.0,2.0]])
logits = mlp(obs, [64, 64, 3], tf.nn.relu, None)
print(logits.shape)

结果:TensorShape([1, 3])

请注意,这种情况下的观察结果是[1.,2.],它嵌套在大小为 1 的批次中。


推荐阅读