首页 > 解决方案 > 猜测收据的类别

问题描述

我们有大量收据(超过 2 万张)并希望对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有超过 500 个类别。

IE

因此,除了我在上述示例中提到的类别之外,我们还有税收类别,并且大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。

所以为了猜测这个类别,我们采用了多标签分类解决方案。目前,我们将获取收据的整个文本,并使用我们拥有的收据文本和类别来训练我们的模型。

想要验证我们是否采用了正确的方法来解决这个问题。期待这里有专家的想法。

标签: tensorflowmachine-learningneural-networklstmmultilabel-classification

解决方案


根据您的解释,您正在解决的问题是基于您的示例的多类分类而不是多标签分类。

如果每个收据只映射到许多可能类别中的一个类别,则它是多类分类。

如果每张收据可以映射到许多可能类别中的多个类别,那么它就是多标签分类。

如需更多解释并了解 sklearn 中解决这些问题的可用算法,请查看此处

有关使用文本数据的更多基本步骤,请阅读此处

编辑:

您可以有一个单独的模型来预测每个收据的税种。由于构建多个多类模型比单个多标签模型相对容易。


推荐阅读