python - 我可以在文本分类模型中添加一层元数据吗？

我正在尝试创建一个多类分类器来识别一组议会成员的 Facebook 帖子主题。

我正在使用 SimpleTransformers 组合一个基于 XML-RoBERTa 的分类模型。有没有办法添加一个带有元数据的嵌入层来改进分类器？（例如，将政党与文字本身一起添加到每个 Facebook 帖子中。）

标签： pythondeep-learningnlptext-classificationbert-language-model

如果您有很多训练数据，我建议将元数据添加到输入字符串（可能与[SEP]另一个句子分隔）并训练分类。假设您有足够的训练示例（我的猜测是数万可能就足够了），该模型肯定足以学习元数据如何与输入句子相互作用。

如果您没有足够的数据，我建议仅运行 XLM-RoBERTa 以获取特征、独立嵌入元数据、连接特征并使用多层感知器进行分类。这可能是不可行的 SimpleTransformers，但如果您直接在 PyTorch 中编写分类代码，使用 Huggingface 的 Transformers 应该很容易。