首页 > 解决方案 > 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型?因果注意掩蔽发生在哪里?

问题描述

我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......

如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。

谢谢!

标签: pytorchbert-language-modelhuggingface-transformersroberta-language-model

解决方案


我找到了。它发生get_extended_attention_mask建模 utils中。考虑解决这个问题:slight_smile:


推荐阅读