python - 我可以在文本分类模型中添加一层元数据吗?
问题描述
我正在尝试创建一个多类分类器来识别一组议会成员的 Facebook 帖子主题。
我正在使用 SimpleTransformers 组合一个基于 XML-RoBERTa 的分类模型。有没有办法添加一个带有元数据的嵌入层来改进分类器?(例如,将政党与文字本身一起添加到每个 Facebook 帖子中。)
解决方案
如果您有很多训练数据,我建议将元数据添加到输入字符串(可能与[SEP]
另一个句子分隔)并训练分类。假设您有足够的训练示例(我的猜测是数万可能就足够了),该模型肯定足以学习元数据如何与输入句子相互作用。
如果您没有足够的数据,我建议仅运行 XLM-RoBERTa 以获取特征、独立嵌入元数据、连接特征并使用多层感知器进行分类。这可能是不可行的 SimpleTransformers,但如果您直接在 PyTorch 中编写分类代码,使用 Huggingface 的 Transformers 应该很容易。
推荐阅读
- r - 将 JSON 导出到文本文件
- javascript - 在 ngOnInit() 内部使用 ngOnInit() 外部的函数
- mysql - 如何使用 SELECT LAST_INSERT_ID(); 在mysql例程中插入语句后?
- python - 排序、排名、groupby 和 sum 组合 -> Python pandas
- c# - Sqlite 使用过程/触发器附加数据库,我将能够从 c# 运行它
- maven - 如何在每个环境中配置 Maven Surefire 中的环境变量?
- uml - 我怎么能说数组中的所有元素都必须在 OCL 中具有某些属性?
- mongodb - 使用 MongoRepository 更新实体时修改的计数
- r - 内联显示文件输入和操作按钮
- python - exchangelib 会议从房间电子邮件中获取日历