python - 大熊猫中的 drop_first 有什么用?
问题描述
drop_first=True
下面代码中的具体用途是什么?
ins = pd.get_dummies(ins, columns=['gender', 'region'], drop_first=True )
解决方案
使用此函数时包含 的主要原因drop_first
是避免在变量之间产生多重共线性问题,这意味着在使用该get_dummies()
函数后,回归模型可能会发现它们之间存在线性关系,因此不满足线性回归的 Guass-Markov 定理,导致错误和 OLS 不是蓝色的。
这确实是一个编码问题,但解释更多的是面向统计/数据科学/交叉验证。所以我建议检查这个答案和/或在那里问:https ://stats.stackexchange.com/questions/224051/one-hot-vs-dummy-encoding-in-scikit-learn/224055#224055
推荐阅读
- angular - 角度一次添加带有图像的文本
- xamarin.forms - Xamarin Forms:日期选择器未在更改时调整全宽
- java - 无法在 Java Android 中使用 dagger2 在片段中注入依赖项
- c# - Socket 的扩展方法 'ReceiveAsync' 的内存泄漏!
- javascript - 在反应中使css特定于404错误页面
- bash - ( Bash - Mercurial ) 使用 Mercurial Hook 启用 bash 脚本的执行问题?
- javascript - 反应片段序列化。错误:无法将符号值转换为字符串
- android - 在 Kotlin 中未调用 Cognito signUpInBackground 回调
- sql-server - 如何在桥梁中考虑时区
- python - python填写一个html表单