machine-learning - 如何在 SUPERGLUE 基准（COPA/ReCoRD/ 等）上微调变压器？

问题描述

我正在尝试微调我在 SUPERGLUE 基准上拥有的一些预训练模型。对于大多数包含（问题，答案）对的任务，它非常简单：只需将问题答案对与 [SEP] 标记连接并标记化。

我正在努力处理不遵循该格式的其他任务；例如：COPA 任务有 (question,choice1,choice2, question_type)。我在 ROBERTA 论文中读到，作者将 s1 = question + "because" + choice1, s2= question + "because" + choice2 连接起来，并选择产生最高标量值的那个。我不完全确定如何使用拥抱脸转换器和可用的标记器来做到这一点。有谁知道如何使这项工作？

对于具有句子对输入（BoolQ、CB、RTE、WiC）的分类任务，我们将句子与 [SEP] 标记连接，将融合的输入提供给 BERT，并使用逻辑回归分类器查看与 [CLS] 对应的表示]。对于 WiC，我们还连接了标记词的表示。对于 COPA、MultiRC 和 ReCoRD，对于每个答案选择，我们类似地将上下文与该答案选择连接起来，并将结果序列输入 BERT 以生成答案表示。对于 COPA，我们将这些表示投影到一个标量中，并将具有最高关联标量的选择作为答案。对于 MultiRC，因为每个问题可以有多个正确答案，我们将每个答案表示输入逻辑回归分类器。对于记录，我们还评估了每个候选者独立于其他候选者的概率，并将最可能的候选者作为模型的预测。对于 WSC，这是一项基于跨度的任务，我们使用受 Tenney 等人启发的模型。（2019）。给定原始句子中每个单词的 BERT 表示，我们通过自注意力跨度池算子 (Lee et al., 2017) 获得代词和名词短语的跨度表示，然后将其输入逻辑回归分类器

标签： machine-learningnlppytorchdatasethuggingface-transformers

machine-learning - 如何在 SUPERGLUE 基准（COPA/ReCoRD/ 等）上微调变压器？

问题描述

解决方案

推荐阅读