首页 > 解决方案 > 改进分类不平衡数据集

问题描述

我用红葡萄酒的数据库进行分类,我正在使用以下列:固定酸度、挥发性酸度、柠檬酸、残留糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐、酒精来预测葡萄酒的质量(一些葡萄酒专家分配的分数从 1 到 10)。我使用 DecisionTreeClassifier、GaussianNB、KNeighborsClassifier、SVM 或 RandomForestClassifier 等分类,但准确率始终约为 60%。当我检查混淆矩阵时,我可以看到大多数预测都是 5-6 个质量点,而我的数据库最常见的是变量。当预测不正确或我的数据库更加平衡时,如何通过更多惩罚来提高准确性?我是分类问题的初学者,所以欢迎任何帮助。数据库:https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 混淆矩阵:混淆矩阵

X=wino[[ 'alcohol','volatile acidity','citric acid','sulphates', 'total sulfur dioxide']].values
Y=wino['quality'].values

X_train, X_test, y_train, y_test = train_test_split( X, Y, test_size=0.3, random_state=42)

dtc=DecisionTreeClassifier()
drzewa=dtc.fit(X_train,y_train)
dtc.score(X_test, y_test)
plot_confusion_matrix(dtc,X_test, y_test,values_format='')

标签: pythonclassification

解决方案


推荐阅读