python - 机器学习 - 使用算法检查文档是否有效
问题描述
我是机器学习的新手。我需要预测文档是有效还是无效。这里我只有 10000 个有效文件(没有任何无效文件)。我看到了一些用于 ex 的算法:Naive Byes、SVM 等。这里的概念是训练模型,我们必须提供两种类型的文档(有效和无效),然后它只能通过与两个训练过的文档进行比较来预测文档。
是否有任何流程或算法,使用它我们可以说文档是有效的或无效的(可能以百分比显示,例如:40% 有效和 60% 无效)仅使用有效文档?
解决方案
一种方法可能是进行一类分类。在机器学习中,一类分类 (OCC) 尝试通过从仅包含该类对象的训练集中学习来识别特定类的对象。OCC 中的任务是围绕正(目标)类定义分类边界,使其从正类中接受尽可能多的对象,同时最小化接受负(离群)对象的机会。这是一个一对一的分类,在训练期间没有观察到其余的分类。在您的情况下,模型将学习分类和识别有效文档,其余为无效文档。
推荐阅读
- scala - 从 Dataframe 列中提取表情符号并将它们添加到同一 Dataframe Scala Spark 的不同列中
- python - 加速 numpy
- c - realloc() 出了什么问题?
- javascript - 每次来自后台的 Expo 应用程序如何重新启动?
- javascript - nodejs - 未显示 console.log 消息
- macos - 在 macOS Big Sur 上安装 Qt4
- python - 如何将数据框的不同分类数据汇总到不同的列中
- reactjs - MUI Select 组件中的自定义文本
- pyspark - spark.sql() 中不等于什么
- turtle-graphics - 如何将正常图像转换为色差图像?