首页 > 解决方案 > 为什么小权重有助于深度神经网络(正则化)

问题描述

我研究神经网络很长时间了,实际上我被这个叫做正则化的话题所困。我学习了 L1、L2 正则化技术,这些技术的主要目的是保持权重尽可能小。但我仍然不明白为什么这很有用。我实际上是在关注这本书-http ://neuralnetworksanddeeplearning.com/chap3.html

标签: deep-learningneural-networkartificial-intelligence

解决方案


它不是从理论方面而是从实践方面有所帮助。

神经网络的权重通常存储为 16 位或 32 位浮点数。对于深度神经网络,如果你不向反向传播添加正则化项,它们的权重将增加到超过浮点数可以很好表示的值(到无穷大)或变得太小以至于它们都表示为零,并且神经网络将不再起作用。

这就是所谓的梯度消失或爆炸问题。将权重之和添加到成本函数中,可以让我们在保持权重实用的同时优化损失函数。


推荐阅读