首页 > 解决方案 > 机器学习 - 使用算法检查文档是否有效

问题描述

我是机器学习的新手。我需要预测文档是有效还是无效。这里我只有 10000 个有效文件(没有任何无效文件)。我看到了一些用于 ex 的算法:Naive Byes、SVM 等。这里的概念是训练模型,我们必须提供两种类型的文档(有效和无效),然后它只能通过与两个训练过的文档进行比较来预测文档。

是否有任何流程或算法,使用它我们可以说文档是有效的或无效的(可能以百分比显示,例如:40% 有效和 60% 无效)仅使用有效文档?

标签: pythonmachine-learning

解决方案


一种方法可能是进行一类分类。在机器学习中,一类分类 (OCC) 尝试通过从仅包含该类对象的训练集中学习来识别特定类的对象。OCC 中的任务是围绕正(目标)类定义分类边界,使其从正类中接受尽可能多的对象,同时最小化接受负(离群)对象的机会。这是一个一对一的分类,在训练期间没有观察到其余的分类。在您的情况下,模型将学习分类和识别有效文档,其余为无效文档。


推荐阅读