machine-learning - 为什么 PyTorch MultiheadAttention 被认为是激活函数？

问题描述

当滚动 PyTorch 包（此处）上可用的所有激活功能时，我发现nn.MultiheadAttention那里有描述。你能解释一下为什么它被认为是激活函数吗？也许我理解错了，但 Multihead Attention 有它自己的可学习权重，所以它似乎更适合层，而不是激活函数。能否请您纠正我，并提供一些我没有得到的见解。

谢谢！

标签： machine-learningdeep-learningpytorchattention-modelactivation-function

machine-learning - 为什么 PyTorch MultiheadAttention 被认为是激活函数？

问题描述

解决方案

推荐阅读