首页 > 解决方案 > BERT模型的参数个数是怎么计算的?

问题描述

Devlin & Co. 的论文“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”计算了基本模型大小为 110M 的参数(即 L=12,H=768,A=12),其中 L = 层数, H = 隐藏大小,A = 自注意力操作的数量。据我所知,神经网络中的参数通常是层之间“权重和偏差”的计数。那么这是如何根据给定的信息计算出来的呢?12 768 768*12?

标签: neural-networknlpbert-language-model

解决方案


推荐阅读