python - 机器学习中带有异常值的线性回归
问题描述
Python(确切地说是 jupyter notebook),使用numpy
且sklearn
仅
np.random.seed(16)
x = np.arange(100)
yp = 3*x + 3 + 2*(np.random.poisson(3*x+3,100)-(3*x+3))
np.random.seed(12)
# Choose how many outliers
out = np.random.choice(100,15)
yp_wo = np.copy(yp)
np.random.seed(12) #set again
yp_wo[out] = yp_wo[out] + 5*np.random.rand(15)*yp[out]
# With outliers
plt.scatter(x,yp_wo)
# Without outliers
plt.scatter(x,yp)
对于上面的数据(wo
意思是“有异常值”),我需要找到:
另外两个损失的最佳系数:MAE 和 MAPE(中值绝对百分比误差)
绘制 MSE 损失、MAE 损失和 MAPE 损失的最佳拟合线。
将岭回归应用于相同的数据,并使用交叉验证来选择最佳参数 alpha(您可以使用 alpha = 10^-5、10^-4、10^-3、... 10^3 的值)。哪个值给您最低的 MSE?
让我感到困惑的是必须为两个或多个损失绘制最佳拟合线。
我可以按照课堂上的代码并尝试获取值,但我不知道系数是什么意思。
任何帮助/指导?
这是我想弄清楚的作业(不,我不是在寻求解决方案)
请原谅任何格式错误,我对 Stack Overflow 很陌生。