首页 > 解决方案 > 在scikit-learn Stochastic Gradient Descent分类器中,如何找到影响最大的自变量?

问题描述

我这样做:

from sklearn.linear_model import SGDClassifier
sgclass = SGDClassifier(random_state=10)
sgclass.fit(X_train,y_train)
pred = sgclass.predict(X_test)
from sklearn.metrics import classification_report,accuracy_score
print(classification_report(y_test, pred))
print(accuracy_score(y_test, pred)) 

这些是关于模型召回率和精度的有用报告。

但是如何获取预测因变量的最有影响力的自变量呢?我从大约 12 位候选人开始,想看看他们在模型中的影响力排名。

标签: scikit-learngradient-descent

解决方案


正如文档所指定的,您可以使用coef_属性来获取特征权重。特征的绝对值越大,其重要性就越大。

您可以在 scikit 的特征选择类SelectFromModel中看到这一点。最好的特征是从具有feature_importances_coef_属性的任何分类器中选择的。


推荐阅读