pytorch - 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型?因果注意掩蔽发生在哪里?
问题描述
我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......
如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。
谢谢!
解决方案
我找到了。它发生get_extended_attention_mask
在建模 utils中。考虑解决这个问题:slight_smile:
推荐阅读
- javascript - 使用 React 和 Axios 从表单中获取值
- r - 在 R 中使用 distill 包渲染博客时出错
- opengl - 相机和鼠标拾取困难
- shopify - 如何在 Shopify 上使用液体确定某个尺码是否有库存?
- python - 使用 Python Selenium,如何点击 webElements 的 webElement?
- python - 如何通过 Lopy 从 Flexiforce 获取测量值
- sql - 如何在 SQL Server 中查找更高的重复 ID?
- r - 将 dplyr vars() 元素转换回字符
- html - 如何停止网格显示上的弹性显示覆盖?
- modelica - OpenModelica中非线性函数的迭代限制