python - 改进分类不平衡数据集
问题描述
我用红葡萄酒的数据库进行分类,我正在使用以下列:固定酸度、挥发性酸度、柠檬酸、残留糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐、酒精来预测葡萄酒的质量(一些葡萄酒专家分配的分数从 1 到 10)。我使用 DecisionTreeClassifier、GaussianNB、KNeighborsClassifier、SVM 或 RandomForestClassifier 等分类,但准确率始终约为 60%。当我检查混淆矩阵时,我可以看到大多数预测都是 5-6 个质量点,而我的数据库最常见的是变量。当预测不正确或我的数据库更加平衡时,如何通过更多惩罚来提高准确性?我是分类问题的初学者,所以欢迎任何帮助。数据库:https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 混淆矩阵:混淆矩阵
X=wino[[ 'alcohol','volatile acidity','citric acid','sulphates', 'total sulfur dioxide']].values
Y=wino['quality'].values
X_train, X_test, y_train, y_test = train_test_split( X, Y, test_size=0.3, random_state=42)
dtc=DecisionTreeClassifier()
drzewa=dtc.fit(X_train,y_train)
dtc.score(X_test, y_test)
plot_confusion_matrix(dtc,X_test, y_test,values_format='')
解决方案
推荐阅读
- sqlite - SQLite:如何从表 1 的列中复制数据并根据特定行中数据的 ID 将数据粘贴到表 2 的列中?
- java - 安装在特定操作系统上的 JRE 是否定制为仅在安装它的操作系统上运行?
- r - 三、data.table合并行为不一致
- html - 如何从客户端上传图片?
- javascript - 让 Node.JS 服务器实时更新 FireBase 数据库的最佳方式?
- git - 如何返回 git master 分支?
- accessibility - ARIA 可访问性问题
- c# - DropDownListFor 将值 NULL 发布到数据库
- html - 如何在移动设备上堆叠排序的列而在桌面上没有间隙?
- r - 当函数生成某些参数的重复/三次时如何为 UI 报告自定义函数 [r]