sklearn-pandas - 在python中识别和替换Salary列异常值的最佳方法
问题描述
在pandas python中识别和替换ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term列异常值的最佳方法是什么。
我尝试使用海运箱线图进行 IQR,并尝试识别出口并填写 NAN 记录,然后取申请人收入的平均值并填写 NAN 记录。
尝试采取以下组合列组,例如:性别、教育、个体经营、Property_Area
并且在我的数据框中有下面的列
Loan_ID LP001357
Gender Male
Married NaN
Dependents NaN
Education Graduate
Self_Employed No
ApplicantIncome 3816
CoapplicantIncome 754
LoanAmount 160
Loan_Amount_Term 360
Credit_History 1
Property_Area Urban
Loan_Status Y
解决方案
异常值
就像缺失值一样,您的数据也可能包含与大多数其他数据大相径庭的值。这些数据点被称为“异常值”。要找到它们,您可以通过箱线图检查单个变量的分布,或者您可以制作数据的散点图以识别不在图中“预期”区域的数据点。
数据中异常值的原因可能会有所不同,从系统错误到人们通过数据输入或数据处理干扰数据,但重要的是要考虑它们可能对您的分析产生的影响:它们会改变统计测试的结果例如标准差、平均值或中位数,它们可能会降低正态性并影响统计模型的结果,例如回归或方差分析。
要处理异常值,您可以删除、转换或估算它们:决定将再次取决于数据上下文。这就是为什么了解您的数据并确定异常值的原因再次很重要的原因:
- 如果异常值是由于数据输入或数据处理错误引起的,您可以考虑删除该值。
- 您可以通过为观察分配权重来转换异常值,或者使用自然对数来减少数据集中异常值导致的变化。
- 就像缺失值一样,您也可以使用插补方法将数据的极值替换为中值、平均值或众数。
您可以使用上一节中描述的函数来处理数据中的异常值。
以下链接将对您有用:
推荐阅读
- node.js - 通过检查数组 Mongodb 中的值从双重嵌套数组中进行投影
- c# - 如何使用 C# stackalloc 并保持相同的代码结构?
- c# - 从数据表错误中获取值对象与目标类型不匹配
- node.js - CDN文件url需要重定向301还是302?
- sql-server - 将一个数据库表中的行插入另一个数据库的两个不同表中
- php - 我得到空数组,在 Codeigniter 中上传多个图像时需要图像数组
- javascript - 在自定义钩子中测试 fetch.catch
- validation - 在 blazor razor 页面中使用 editform 时如何重置自定义验证错误
- c# - 如何区分来自类内部或外部的依赖属性更改
- java - java ArrayList 和 LinkedList 添加