sigmoid - 为什么 Relu 能解决梯度消失问题?
问题描述
当谈到 sigmoid 时,由于 0~1 的大量乘法,第一个边很少更新。我知道它被称为消失梯度。
但是为什么对 Relu 来说不是问题呢?我认为第一个边缘relu
也很少更新。
既然derivative
是relu
0 或 1,那么它的很多乘法不是收敛到 0 吗?
解决方案
本文对此问题进行了有趣的讨论:http: //proceedings.mlr.press/v15/glorot11a/glorot11a.pdf
特别是,请查看第 318 页上的“潜在问题”部分。这似乎正是因为导数为 0 或 1,但绝不只是“接近”零(如在 sigmoid 情况下)导致稀疏表示事实证明这有助于培训。
推荐阅读
- python - 线性回归中多个变量的p值如何计算?
- c++ - 查询 CL_DEVICE_MAX_WORK_ITEM_SIZES
- javascript - 当向下滚动时从一个切换到另一个时,为标题中的徽标添加淡入/淡出效果
- mysql - MySQL正则表达式 - 不以元音开头也不以元音结尾
- c# - Sqlite 在 C# 中将数据库移动到内存
- python - “将温度从 f 转换为 c”在 def 中不起作用
- powershell - Powershell 添加重复的 IIS 应用程序池
- django - Django Match-team-player 关系玩家选择
- android - MVVM 架构上的 ItemTouchHelper
- cmd - 如何在 CMD 中使用 -t -l 65500 ping HTTPS 网站