首页 > 解决方案 > 使用 BERT 对给定的字符长度或句子中的单词数进行分类

问题描述

我有一个标题数据集,它们的描述和对应于描述是否有效的 0 或 1。我希望能够根据 BERT 以及描述的字符/字数来分类它们是否有效。我该怎么做?

标签: machine-learningnlpbert-language-model

解决方案


这个问题有点宽泛,但你可以从以下开始:

您可能可以使用Colabert 处理器,它是二进制分类问题的合适处理器。

您可以将 Titles 视为 ID,因为它不应该影响训练,并且可以唯一标识描述。

根据需要的问题创建 TSV 文件,您可以使用 Cola 任务的 Glue 数据来查看如何为 bert 格式化数据。

一般训练集和开发集有 4 列,即 、idclasssegment IDtext data而测试集只有 2 列idtext data

一旦获得所需格式的数据,您就可以执行微调。您可以使用run_classifier.py脚本进行微调。作者在此处记录了使用上述脚本进行微调的方法


推荐阅读