deep-learning - 为什么小权重有助于深度神经网络（正则化）

我研究神经网络很长时间了，实际上我被这个叫做正则化的话题所困。我学习了 L1、L2 正则化技术，这些技术的主要目的是保持权重尽可能小。但我仍然不明白为什么这很有用。我实际上是在关注这本书-http ://neuralnetworksanddeeplearning.com/chap3.html

标签： deep-learningneural-networkartificial-intelligence

它不是从理论方面而是从实践方面有所帮助。

神经网络的权重通常存储为 16 位或 32 位浮点数。对于深度神经网络，如果你不向反向传播添加正则化项，它们的权重将增加到超过浮点数可以很好表示的值（到无穷大）或变得太小以至于它们都表示为零，并且神经网络将不再起作用。

这就是所谓的梯度消失或爆炸问题。将权重之和添加到成本函数中，可以让我们在保持权重实用的同时优化损失函数。