python - 当数据集的一行有多个标签的可能性时,是否可以训练 BERT 进行句子分类?
问题描述
我们有一个包含几千个句子的数据集,每个句子都有几个标签。
例如:
- “你是个坏人”
- 【挑衅、审判】
这两个标签都有效并被接受。
目前我们在第一个上训练 BERT,它工作得很好,除了我们需要在这两个上训练它以适应我们的用例。
我们的第一个想法是复制数据集的行。所以我们有:
第 123.1 行
- “你是个坏人”
- 挑衅
第 123.2 行
- “你是1个坏人”
- 判断
我们担心的是:
- 它可能会稀释这句话在训练期间获得的权重(可能没什么大不了的?)
- 它不适用于测试集,除非我们从头开始创建一个训练场景,我们承认这两个标签都被认为是成功的
对于这个用例,还有 1 种更相关的工作方式吗?
解决方案
推荐阅读
- xml - 所有 XML 文本的 TrimSpaces
- docker - 如何从 docker 容器中获取远程机器的 MAC 地址
- ios - Swift 创建自定义警报控制器初始化程序
- node.js - npm install 在 ubuntu 18.04 上失败并出现错误:“在 bcrypt@3.0.3 安装脚本失败”
- cross-validation - 无法获得训练集和测试集
- sql-server - ORDER BY 显然不适用于 Datetime 列?
- ssh - 如何通过 SSH 连接 raspbian strech
- input - 乘法数字根 - 扫描仪中的新输入
- laravel - 如何通过 laravel 中的 eloquent 模型从数据库中返回所需的列
- html - 水平导航栏/下拉内容不会出现在悬停时,例外。谢谢