neural-network - BERT模型的参数个数是怎么计算的？

问题描述

Devlin & Co. 的论文“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”计算了基本模型大小为 110M 的参数（即 L=12，H=768，A=12），其中 L = 层数， H = 隐藏大小，A = 自注意力操作的数量。据我所知，神经网络中的参数通常是层之间“权重和偏差”的计数。那么这是如何根据给定的信息计算出来的呢？12 768 768*12？

标签： neural-networknlpbert-language-model

neural-network - BERT模型的参数个数是怎么计算的？

问题描述

解决方案

推荐阅读