scikit-learn - 在scikit-learn Stochastic Gradient Descent分类器中,如何找到影响最大的自变量?
问题描述
我这样做:
from sklearn.linear_model import SGDClassifier
sgclass = SGDClassifier(random_state=10)
sgclass.fit(X_train,y_train)
pred = sgclass.predict(X_test)
from sklearn.metrics import classification_report,accuracy_score
print(classification_report(y_test, pred))
print(accuracy_score(y_test, pred))
这些是关于模型召回率和精度的有用报告。
但是如何获取预测因变量的最有影响力的自变量呢?我从大约 12 位候选人开始,想看看他们在模型中的影响力排名。
解决方案
正如文档所指定的,您可以使用coef_属性来获取特征权重。特征的绝对值越大,其重要性就越大。
您可以在 scikit 的特征选择类SelectFromModel中看到这一点。最好的特征是从具有feature_importances_或coef_属性的任何分类器中选择的。
推荐阅读
- c# - 接口内的变量,还是向各种类添加/需要变量的替代方法?
- debugging - VSCode 中 NPM Google Cloud 包的源映射问题
- common-lisp - 如何在 common lisp 中创建位数组?
- python - 将 Numpy 数组分配给变量
- flutter - Firestore 更改未与流生成器同步
- python - 带有 lru_cache 的斐波那契数列函数不显示所有斐波那契数
- scrapy - Scrapy:如何在 100 个请求后停止 CrawlSpider
- php - 多个服务中的常见依赖项
- php - 从 PHP 中的顺序数组创建嵌套数组
- node.js - Conda 无法识别我已安装节点?