deep-learning - 为什么小权重有助于深度神经网络(正则化)
问题描述
我研究神经网络很长时间了,实际上我被这个叫做正则化的话题所困。我学习了 L1、L2 正则化技术,这些技术的主要目的是保持权重尽可能小。但我仍然不明白为什么这很有用。我实际上是在关注这本书-http ://neuralnetworksanddeeplearning.com/chap3.html
解决方案
它不是从理论方面而是从实践方面有所帮助。
神经网络的权重通常存储为 16 位或 32 位浮点数。对于深度神经网络,如果你不向反向传播添加正则化项,它们的权重将增加到超过浮点数可以很好表示的值(到无穷大)或变得太小以至于它们都表示为零,并且神经网络将不再起作用。
这就是所谓的梯度消失或爆炸问题。将权重之和添加到成本函数中,可以让我们在保持权重实用的同时优化损失函数。
推荐阅读
- javascript - 机器人删除不是该文本通道中命令的消息
- leaflet - 如何使用 Leaflet 在两个标记之间创建折线偏移?
- python - 根据名称模式查找特定文件的代码 - break 命令的问题
- javascript - Rails 6 应用程序使用 Yarn (webpacker) 安装 Glide.js - 未捕获的 ReferenceError: Glide 未定义
- sql - 如何正确转义 SQL“LIKE”运算符的用户输入?(Postgres)
- python - 如何打印正方形的两条对角线?
- matlab - 我试图在 matlab 中绘图,但 matlab 绘图不起作用
- git - 如何使用自定义消息 git stash 未跟踪的文件?
- c - 强制缓冲区在 scanf 中清除
- shell - 以连续编号重命名目录中的文件夹