首页 > 解决方案 > 如何在 SUPERGLUE 基准(COPA/ReCoRD/ 等)上微调变压器?

问题描述

我正在尝试微调我在 SUPERGLUE 基准上拥有的一些预训练模型。对于大多数包含(问题,答案)对的任务,它非常简单:只需将问题答案对与 [SEP] 标记连接并标记化。

我正在努力处理不遵循该格式的其他任务;例如:COPA 任务有 (question,choice1,choice2, question_type)。我在 ROBERTA 论文中读到,作者将 s1 = question + "because" + choice1, s2= question + "because" + choice2 连接起来,并选择产生最高标量值的那个。我不完全确定如何使用拥抱脸转换器和可用的标记器来做到这一点。有谁知道如何使这项工作?

对于具有句子对输入(BoolQ、CB、RTE、WiC)的分类任务,我们将句子与 [SEP] 标记连接,将融合的输入提供给 BERT,并使用逻辑回归分类器查看与 [CLS] 对应的表示]。对于 WiC,我们还连接了标记词的表示。对于 COPA、MultiRC 和 ReCoRD,对于每个答案选择,我们类似地将上下文与该答案选择连接起来,并将结果序列输入 BERT 以生成答案表示。对于 COPA,我们将这些表示投影到一个标量中,并将具有最高关联标量的选择作为答案。对于 MultiRC,因为每个问题可以有多个正确答案,我们将每个答案表示输入逻辑回归分类器。对于记录,我们还评估了每个候选者独立于其他候选者的概率,并将最可能的候选者作为模型的预测。对于 WSC,这是一项基于跨度的任务,我们使用受 Tenney 等人启发的模型。(2019)。给定原始句子中每个单词的 BERT 表示,我们通过自注意力跨度池算子 (Lee et al., 2017) 获得代词和名词短语的跨度表示,然后将其输入逻辑回归分类器

标签: machine-learningnlppytorchdatasethuggingface-transformers

解决方案


推荐阅读