machine-learning - 使用 BERT 对给定的字符长度或句子中的单词数进行分类
问题描述
我有一个标题数据集,它们的描述和对应于描述是否有效的 0 或 1。我希望能够根据 BERT 以及描述的字符/字数来分类它们是否有效。我该怎么做?
解决方案
这个问题有点宽泛,但你可以从以下开始:
您可能可以使用Cola
bert 处理器,它是二进制分类问题的合适处理器。
您可以将 Titles 视为 ID,因为它不应该影响训练,并且可以唯一标识描述。
根据需要的问题创建 TSV 文件,您可以使用 Cola 任务的 Glue 数据来查看如何为 bert 格式化数据。
一般训练集和开发集有 4 列,即 、id
、class
、segment ID
,text data
而测试集只有 2 列id
和text data
。
一旦获得所需格式的数据,您就可以执行微调。您可以使用run_classifier.py
脚本进行微调。作者在此处记录了使用上述脚本进行微调的方法
推荐阅读
- node.js - 流 - '即使在暂停连接时也会调用完成事件'
- javascript - 如何以角度编码 URL?
- android - 如何避免与 insetEdge 和 dodgeInsetEdges 重叠的视图
- pandas - 如何根据组 ID 和第一个值的百分比创建新的 Pandas 列?
- vim - 如何在没有包管理器的情况下安装 vim syntastic?
- javascript - 如何在取消选中反应时删除对象的属性?
- python - Python 2.7 将于 2020 年 1 月 1 日结束生命周期
- python - 如何让调试器停在 PyCharm 的正确位置?
- corda - Corda - 设计安全合约
- javascript - 如何根据 Odoo12 中的字段值更改列的颜色?