首页 > 解决方案 > 哪个公式用于 statsmodels OLS 中的 t 值和标准误差

问题描述

我想了解 python statsmodels 库是如何工作的。因此,当我尝试使用 OLS t 值和 SEE 或 bse 的计量经济学公式获得结果时,我得到的答案与 statsmodels 中的答案不同。(零截距的OLS)我有:

x = [1,2,3]
y = [7,3,5]

并收到与 R^2 相同的结果,残差与 statsmodels 中的代码相同:

def ols(x, y):
    # OLS
    df = pd.DataFrame(data={'x':x, 'y':y})
    coeff = sum(df['y'] * df['x']) / sum(df['x'] ** 2)
    df['predict'] = df['x'] * coeff
    # R^2
    n = len(df)
    rss = sum((df['y'] - df['predict']) ** 2 )
    tss = sum((df['y']) ** 2)
    r2 = 1 - rss/tss
    # Residaual
    resid = (df['y'] - df['predict']).values
    
    return coeff, r2, resid, df

这是我的 statsmodels oblect

ols_obj = OLS(y, x).fit()

print('coeff', (ols_obj.predict(x)/x)[0])
print('R^2', ols_obj.rsquared)
print('resid', ols_obj.resid)

print('t', ols_obj.tvalues)
print('param', ols_obj.params[0], '| bse', ols_obj.bse[0], '| param/bse', ols_obj.params[0]/ols_obj.bse)

系数 2.0
R^2 0.6746987951807228 残基
[ 5. -1. -1.]
t [2.03670031]
参数 2.0 | bse 0.9819805060619657 | 参数/bse [2.03670031]

这是我的功能:

coeff, r2, resid, df = ols(x, y)

print('coeff', coeff)
print('R^2', r2)
print('resid', resid)

系数 2.0
R^2 0.6746987951807228 残基
[ 5. -1. -1.]

但是对于 t 值,我
从计量经济学中得到错误的数字,我使用标准误差公式
SE(b) = sqrt( ( sum(resid^2) / (n-2) ) / sum( (x - mean(x) ) **2))

SE(b) = 3.6742346141747673

我做错了什么?

标签: pythonlinear-regressionstatsmodels

解决方案


我相信,就像@Josef 一样,这是带有截距的公式。如果您允许自己关注矩阵开发Wiki 链接

import statsmodels.api as sm

x = np.array([1,2,3])
y = np.array([7,3,5])
resx = sm.OLS(y, x).fit()

# residual variance
res_variance = (1/(3-1))*sum(resx.resid**2) 
# estimator stand. Err.
beta_se = np.sqrt((res_variance)*(1 / (x.T @ x))) # x.T @ x is a scalar here. use np.linalg.Inv otherwise

new_tval = resx.params / beta_se # 2.036700..

是相同的

resx.tvalues # 2.036700..

推荐阅读