java - 我如何将完全标记的数据集拆分为标记和未标记的数据以用于半监督学习
问题描述
我正在研究一个新的想法来提高半监督学习的分类准确性。我想使用相同的文本分类数据集并将此数据集拆分为标记集和未标记集,我如何在 Java 中做到这一点?
谁能帮我?
解决方案
使用较少的标签时,它不会提高准确性。如果您拆分数据以从一组中删除标签并将其用于半监督学习,它只会降低您的准确性。半监督的目的是为监督学习标记大量数据的过程非常耗时且昂贵,因此如果您需要更多数据(您已经拥有),那么您可以使用技术来使用未标记的数据。甚至在考虑 Java 编码之前,您能否进一步了解您为什么要考虑这个问题?
推荐阅读
- c++ - 将文本文件中的单词放入数组
- php - 如何在谷歌云存储上实现缓存作为具有私有对象的 Laravel 文件系统
- matlab - 一个函数如何事先知道它应该在哪里存储它的输出?
- python - KMeans 预测的标签上的 dask compute() 问题
- azure-functions - 来自 Az Function .net5 中查询字符串的字符串数组输入
- python - 创建具有列表值并依赖于另一列的列
- list - SAS检查值是否在变量的动态列表中
- sharepoint-online - 从分类字段中获取值
- google-admin-sdk - 目录 API 查询“不等于”?
- java - JsonParser 获得第一个重复键