python - GPT-2 语言模型:将解码器-转换器输出与令牌嵌入或另一个权重矩阵相乘
问题描述
我正在阅读 GPT2 语言模型的代码。隐藏状态到词汇表概率分布的转换在以下行中完成:
lm_logits = self.lm_head(hidden_states)
这里,
self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
然而,在原始论文中,他们建议将隐藏状态与令牌嵌入矩阵相乘,而拥抱脸的 实现则使用另一个矩阵。
这有什么好处吗?我错过了什么吗?
解决方案
推荐阅读
- android - 没有在 linux react-native compile exit 编译我的 poyect
- excel - 更新 Power Query 源
- oracle - TypeORM Oracle 驱动程序,适用于 query.raw 但不适用于实体
- esper - 如何在单个 EPL 查询中匹配多个模式
- vim - 如何在 vim 中禁用命令历史记录 (q:)?
- php - 来自 PostgreSQL 的 Ajax 自动完成文本框未获取数据
- jquery - jquery ui 自动完成自定义数据语法
- android - 如何使用链为约束布局中的单个视图设置动画?
- sql-server - 使用 Node.js 提供的 mssql 包在 Node.js express 应用程序中执行存储过程
- javascript - OnClientClick 未触发