python - 当我添加更多隐藏层时,神经网络仅产生 1 的值
问题描述
所以,我正在构建一个机器学习领域模拟,我可以在其中交换不同的算法来展示不同模型的优缺点。
我尝试使用 ReLU 激活,但这并不理想,因为 SoftMax 会产生概率分布,这意味着一次几乎只能执行 1 个动作。
我认为 sigmoid 是最好的选择,但是当我计算输出层时,它会逐渐变得越来越大,因此当我添加 2 个隐藏层时:所有输出节点都为 1。
这是一个演示: https ://i.gyazo.com/b12d4efdd1b0af518751762cb2f000f9.mp4
以下是一些代码片段:
class NeuralNetwork:
layer_weights: list
neuron_weights: list = None # Stored here for verbose
neuron_screen_locations: list = None
def __init__(
self,
dimensions: Tuple[int] = None,
layer_weights: list = None
):
if dimensions:
self.layer_weights = []
for i in range(len(dimensions)-1):
self.layer_weights.append(
np.random.uniform(
size=(dimensions[i], dimensions[i+1])
)
)
return
self.layer_weights = list(layer_weights)
def activate_layer(self, layer: list):
for x in np.nditer(layer, op_flags=['readwrite']):
x[...] = self.sigmoid(x)
def output(self, inputs: list):
self.neuron_weights = []
self.neuron_weights.append(np.array((inputs)))
output = inputs
for weight_layer in self.layer_weights:
output = np.matmul(output, weight_layer)
self.activate_layer(output)
self.neuron_weights.append(output)
return output
def sigmoid(self, x, derivative=False):
...
def ReLU(self, x):
...
def softmax(self, x):
...
def draw_neurons(self): # Draws neurons to screen
...
def draw_weights(self): # Draws synaptic connections between neurons to screen
...
编辑:
我也尝试使用产生类似结果的 Tanh...这是一个演示(甚至更多层): https ://i.gyazo.com/d779dce5cd974bc644d0f1ffa267c062.mp4
这是我的输入功能的代码(也许问题可能在这里?):
def look(self, match_up: MatchUp):
"""Set up Neural Network inputs."""
p: Pawn = self.pawn
imminent: Laser = match_up.get_most_imminent_laser(p)
enemy: Pawn = match_up.get_closest_opponent(p)
max_angle = math.pi * 2
self.inputs = [
1/math.sqrt(p.dist_squared(actor=imminent)
) if imminent != None else 1,
p.angle_to(actor=imminent)/max_angle if imminent != None else 1,
1/math.sqrt(p.dist_squared(actor=enemy)) if enemy != None else 1,
p.angle_to(actor=enemy)/max_angle if enemy != None else 1,
p.get_direc()/max_angle,
p.health/p.stat_bias.max_health
]
解决方案
你的问题是权重初始化。因为您使用统一的权重初始化,您的网络会在值上爆炸,因此只会产生值并遭受梯度消失的影响。从某种意义上说,您应该争取在每一层之后产生正态分布输出的初始化。
对于 sigmoid/TanH,这将是 glorot 初始化,stddev = sqrt(2 / (Nr. input nodes + Nr. output nodes))。
对于 ReLU,他会初始化 stddev = sqrt(2 / (Nr. input nodes))。
对于您的程序,您只需将初始化 from np.random.uniform(0,1, size=(dimensions[i], dimensions[i+1]))
to替换为np.random.normal(0, np.sqrt(2 / (dimensions[i] + dimensions[i+1])), size=(dimensions[i], dimensions[i+1]))
它应该可以按预期工作。
引文:glorot Init。[ http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf?hc_location=ufi],他初始化。[ https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf]
推荐阅读
- react-native - 找不到参数的方法 implementation() [com.google.android.gms:play-services-base:16.0.1]
- c - 搜索文件被程序拒绝
- android - 在我的 React Native 应用程序中,我无法检查用户何时从 Android 中的 Branch.io 链接安装应用程序,但会显示在 Liveview 中
- javascript - 如何在 java selenium 中使用 PageObjects 和 @FindBy 执行 javascript 元素
- c# - 我的 .NET 应用程序如何在我的应用程序读取文件时阻止其他进程写入文件?
- node.js - CORS 政策快递
- elasticsearch - 从弹性搜索快照中排除索引
- csv - 如何让 Talend tDBBulkExec 组件接受文本附件?
- struct - 读/写结构到闪存
- ansible - Ansible 事实 - 如何从事实树中打印特定项目