首页 > 解决方案 > 使用 python statsmodels 计算 DFFITS 需要很长时间

问题描述

我使用 statsmodels 来计算厨师的距离和 dffits。

特征数:3,样本量:200,000

谷歌 colab,statsmodels 版本:0.10.2

model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()

influence = results.get_influence()
cooks_d, p_value = influence.cooks_distance
dffits, dffits_threshold = influence.dffits

我立即得到了 cooks_d,但 dffits 需要很长时间。如果我使用summary_frame(),也需要很长时间。

sm_fr = influence.summary_frame()

有什么建议可以解决这个问题吗?

标签: pythonstatsmodelsoutliers

解决方案


推荐阅读