python - MultiheadAttention 的可学习参数个数
问题描述
在测试时(使用 PyTorch 的 MultiheadAttention ),我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。
这种行为正确吗?如果是这样,为什么?
正面的数量不应该影响模型可以学习的参数数量吗?
在测试时(使用 PyTorch 的 MultiheadAttention ),我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。
这种行为正确吗?如果是这样,为什么?
正面的数量不应该影响模型可以学习的参数数量吗?
标签: pythonpython-3.xnlppytorchattention-model