machine-learning - 训练数据的高精度召回,但分类问题中的测试数据非常差
问题描述
我对 ML 很陌生,我正在尝试为不平衡的二进制类构建一个分类器来解决现实生活中的问题。我尝试了各种模型,如逻辑回归、随机森林、ANN 等,但每次我得到非常高的精度和召回率(大约 94%)的训练数据和非常差的(大约 1%)测试或验证数据。我有 53 个特征和 97094 个数据点。我尝试调整超参数,但据我了解,以当前的精度和对测试和验证数据的召回率,它也无济于事。谁能帮我理解可能出了什么问题。谢谢你。
rf = RandomForestClassifier(bootstrap=True, class_weight={1:0.80,0:0.20}, criterion='entropy',
max_depth=2, max_features=4,
min_impurity_decrease=0.01, min_impurity_split=None,
min_weight_fraction_leaf=0.0, n_estimators=10,
n_jobs=-1, oob_score=False, random_state=41, verbose=0,
warm_start=False)
rf.fit(X_train, y_train)
解决方案
推荐阅读
- ruby - 有没有办法向 Thor 类添加钩子以便在所有命令之前/之后运行代码?
- sql - SQL Server 在更新语句中排序
- r - 具有自适应数据框的闪亮应用程序,用于更改点分析
- vba - 有没有办法为 WithEvents 使用后期绑定?
- php - 减少laravel中的列值但不是负值
- ios - 如何在IOS模拟器Xcode中测试PushNotification
- cmd - 通过 CMD 重命名文件保留最后 10 个字符并删除所有起始字符
- html - 如何设置插件的 z-index
- c++ - 在 Tensorflow C++ 中使用 FIFOQueue 时遇到问题
- python - mpi4py Reduce() 中可能的缓冲区大小限制