首页 > 解决方案 > 在python中识别和替换Salary列异常值的最佳方法

问题描述

在pandas python中识别和替换ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term列异常值的最佳方法是什么。

我尝试使用海运箱线图进行 IQR,并尝试识别出口并填写 NAN 记录,然后取申请人收入的平均值并填写 NAN 记录。

尝试采取以下组合列组,例如:性别、教育、个体经营、Property_Area

并且在我的数据框中有下面的列

Loan_ID              LP001357
Gender                   Male
Married                   NaN
Dependents                NaN
Education            Graduate
Self_Employed              No
ApplicantIncome          3816
CoapplicantIncome         754
LoanAmount                160
Loan_Amount_Term          360
Credit_History              1
Property_Area           Urban
Loan_Status                 Y

标签: sklearn-pandasdata-science-experience

解决方案


异常值

就像缺失值一样,您的数据也可能包含与大多数其他数据大相径庭的值。这些数据点被称为“异常值”。要找到它们,您可以通过箱线图检查单个变量的分布,或者您可以制作数据的散点图以识别不在图中“预期”区域的数据点。

数据中异常值的原因可能会有所不同,从系统错误到人们通过数据输入或数据处理干扰数据,但重要的是要考虑它们可能对您的分析产生的影响:它们会改变统计测试的结果例如标准差、平均值或中位数,它们可能会降低正态性并影响统计模型的结果,例如回归或方差分析。

要处理异常值,您可以删除、转换或估算它们:决定将再次取决于数据上下文。这就是为什么了解您的数据并确定异常值的原因再次很重要的原因:

  • 如果异常值是由于数据输入或数据处理错误引起的,您可以考虑删除该值。
  • 您可以通过为观察分配权重来转换异常值,或者使用自然对数来减少数据集中异常值导致的变化。
  • 就像缺失值一样,您也可以使用插补方法将数据的极值替换为中值、平均值或众数。

您可以使用上一节中描述的函数来处理数据中的异常值。

以下链接将对您有用:

Python数据清洗

检测和去除异常值的方法


推荐阅读