python - MultiheadAttention 的可学习参数个数

在测试时（使用 PyTorch 的 MultiheadAttention ），我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。

这种行为正确吗？如果是这样，为什么？

正面的数量不应该影响模型可以学习的参数数量吗？

标签： pythonpython-3.xnlppytorchattention-model

多头注意力的标准实现将模型的维度除以注意力头的数量。

具有单个注意力头的维度d模型会将嵌入投影到d维查询、键和值张量的单个三元组（每个投影计算d ^{2 个}参数，不包括偏差，总共3d ^{2 个}）。

具有k个注意力头的相同维度的模型会将嵌入投影到d/k维查询、键和值张量的k个三元组（每个投影计算d×d/k=d ² /k个参数，不包括偏差，总共3kd 2 /k=3d ²⁾。

参考：

从原始论文：

您引用的 Pytorch 实现：