首页 > 解决方案 > 我如何将完全标记的数据集拆分为标记和未标记的数据以用于半监督学习

问题描述

我正在研究一个新的想法来提高半监督学习的分类准确性。我想使用相同的文本分类数据集并将此数据集拆分为标记集和未标记集,我如何在 Java 中做到这一点?

谁能帮我?   

标签: javamachine-learningweka

解决方案


使用较少的标签时,它不会提高准确性。如果您拆分数据以从一组中删除标签并将其用于半监督学习,它只会降低您的准确性。半监督的目的是为监督学习标记大量数据的过程非常耗时且昂贵,因此如果您需要更多数据(您已经拥有),那么您可以使用技术来使用未标记的数据。甚至在考虑 Java 编码之前,您能否进一步了解您为什么要考虑这个问题?


推荐阅读