首页 > 解决方案 > 我可以在文本分类模型中添加一层元数据吗?

问题描述

我正在尝试创建一个多类分类器来识别一组议会成员的 Facebook 帖子主题。

我正在使用 SimpleTransformers 组合一个基于 XML-RoBERTa 的分类模型。有没有办法添加一个带有元数据的嵌入层来改进分类器?(例如,将政党与文字本身一起添加到每个 Facebook 帖子中。)

标签: pythondeep-learningnlptext-classificationbert-language-model

解决方案


如果您有很多训练数据,我建议将元数据添加到输入字符串(可能与[SEP]另一个句子分隔)并训练分类。假设您有足够的训练示例(我的猜测是数万可能就足够了),该模型肯定足以学习元数据如何与输入句子相互作用。

如果您没有足够的数据,我建议仅运行 XLM-RoBERTa 以获取特征、独立嵌入元数据、连接特征并使用多层感知器进行分类。这可能是不可行的 SimpleTransformers,但如果您直接在 PyTorch 中编写分类代码,使用 Huggingface 的 Transformers 应该很容易。


推荐阅读