首页 > 解决方案 > 天赋分类模型训练中如何解析数据?

问题描述

所以我准备了一个数据集来训练一个天赋分类模型。它以正确的方式格式化(标签<class_x> )。然而,当我去训练我的模型时,我相信它会混淆数据。这可能是因为其他分隔符,因为我的数据集充满了空格、分号、单引号和双引号以及逗号。

这是我的一个数据集的一个例子

当我运行训练模型程序并打印语料库信息时,它给了我这个: corpus print corpus information

当模型尝试训练时,每个 epoch 都有相同的问题:[W ParallelNative.cpp:206] 警告:在并行工作开始后或使用原生并行后端(函数 set_num_threads)调用 set_num_threads 后无法设置内部操作线程数

每个时期都没有改善或发展:2021-07-26 10:26:51,694 DEV:损失 6.476138114929199 - 得分 0.0

2021-07-26 10:26:51,812 糟糕的时代(没有改善):0

完成的结果如下所示: results

如果有人可以为我指出如何使这种模型训练发挥作用的正确方向,将不胜感激。

标签: pythonnlpclassificationcorpusflair

解决方案


推荐阅读