首页 > 解决方案 > SequentialFeatureSelector 中的“ci_bound”是什么意思?

问题描述

我正在关注有关使用数据集逐步回归的在线教程之一boston。代码没有任何问题,但我只想了解我所看到的。所以我在下面运行了前向选择:

sfs = SFS(LinearRegression(), 
          k_features=(3,11), 
          forward=True, 
          floating=False,
          scoring='neg_mean_squared_error',
          cv=4)
sfs.fit(X, y)

之后,我在 DataFrame 中可视化数据,如下所示:

pd.DataFrame.from_dict(sfs.get_metric_dict()).T

这给了我: 在 DataFrame 中可视化数据

列中的值ci_bound是什么意思?

标签: pythonpandasmachine-learningstatisticsconfidence-interval

解决方案


看起来您正在使用 mlxtend 的SequentialFeatureSelector. 这个家族的算法所做的是添加或删除特征并分析它们对算法指标的影响。如文档中所述,ci_bound为您提供confidence interval around the computed cross-validation scores. 默认情况下,使用95%置信区间,但您可以使用 将其设置为另一个值confidence_interval

置信区间大概是通过重复交叉验证K时间(K-Fold cross validation)获得的。因此,您在生成的数据框中看到的是使用给定特征子集进行估计得出的分数,以及与这些分数相关的置信区间。


推荐阅读