首页 > 解决方案 > 大熊猫中的 drop_first 有什么用?

问题描述

drop_first=True下面代码中的具体用途是什么?

ins = pd.get_dummies(ins, columns=['gender', 'region'], drop_first=True )

标签: pythonpandas

解决方案


使用此函数时包含 的主要原因drop_first是避免在变量之间产生多重共线性问题,这意味着在使用该get_dummies()函数后,回归模型可能会发现它们之间存在线性关系,因此不满足线性回归的 Guass-Markov 定理,导致错误和 OLS 不是蓝色的。

这确实是一个编码问题,但解释更多的是面向统计/数据科学/交叉验证。所以我建议检查这个答案和/或在那里问:https ://stats.stackexchange.com/questions/224051/one-hot-vs-dummy-encoding-in-scikit-learn/224055#224055


推荐阅读