python - Pandas 滚动、重采样和应用功能
问题描述
我正在寻找一种方法来创建每日时间索引数据帧,过去两年的滚动窗口,每 5 天重新采样一次,然后在重新采样的数据帧上运行函数。
仅供参考,在这种情况下,我想运行回归 y~X(根据下面的数据框)。
所以输出将是一个时间索引系列,每天都有 Beta 值(忽略前 2 年)
目前我正在使用基于行的循环,但它非常慢
感觉应该有更简单的方法来实现这一点。
提前致谢
date_range=pd.date_range('2015-01-01','2019-12-31')
df=pd.DataFrame(np.random.rand(len(date_range),2),index=date_range,columns=['X','y'])
我目前使用的代码
def rolling_stats(X,y,years_window=2):
idx=X.index
assert len(X)==len(y)
x_idx=np.isnan(X).argmin()
y_idx=np.isnan(y).argmin()
out_dates = []
out_beta = []
out_rsq = []
out_stderr = []
df=pd.DataFrame(np.nan,columns=['Beta','RSQ','StdErr'],index=idx)
for date in idx:
start_date=date-DateOffset(years=years_window)
date_range=pd.bdate_range(start_date,date,freq='5D')
try:
X_reg=X.loc[X.index.isin(date_range)]
y_reg=y.loc[y.index.isin(date_range)]
assert len(X_reg)==len(y_reg)
X_c=sm.add_constant(X_reg)
model=sm.OLS(y_reg,X_c)
result=model.fit()
df.loc[date,'RSQ']=result.rsquared
df.loc[date,'Beta']=result.params[1]
df.loc[date,'StdErr']=np.sqrt(result.mse_resid)
except Exception:
df.loc[date,'RSQ']=np.nan
df.loc[date,'Beta']=np.nan
df.loc[date,'StdErr']=np.nan
return df
解决方案
使用已实现rolling.apply
的方法无法使用多列(此处为 X,y)作为输入并返回 3 个输出。最好的方法是使用 piRSquared 的滚动方法。
from numpy.lib.stride_tricks import as_strided as stride
import pandas as pd
def roll(df, w, **kwargs):
v = df.values
d0, d1 = v.shape
s0, s1 = v.strides
a = stride(v, (d0 - (w - 1), w, d1), (s0, s0, s1))
rolled_df = pd.concat({
row: pd.DataFrame(values, columns=df.columns)
for row, values in zip(df.index[w-1:], a) #small difference to get the right date later
})
return rolled_df.groupby(level=0, **kwargs)
apply
然后为每个视图定义函数以从中获取结果OLS
。所以这里是如何做的:
def result_tup (df_roll):
result = sm.OLS( df_roll['y'],
df_roll[['one','X']]).fit()
return ( df_roll.index.get_level_values(0)[-1], result.rsquared,
result.params[1], result.mse_resid)
现在您想要的是将此功能应用于以 5 天为间隔的组,因此您可以执行以下操作:
# input and fix a seed for random
date_range=pd.date_range('2015-01-01','2019-12-31')
np.random.seed(1)
df=pd.DataFrame(np.random.rand(len(date_range),2),index=date_range,columns=['X','y'])
#the two parameters and add the column with a 1 instead of doing it each time with sm.add_constant
years_windows = 2
day_freq = 5
df['one'] = 1
#calculate the length of the window
len_window = len(pd.date_range(pd.Timestamp.today().date() - pd.DateOffset(years=2),
pd.Timestamp.today().date(), freq=f'{day_freq}D'))
# groupby every day_freq rows and do the calculation:
df_res = pd.concat([ pd.DataFrame( roll(dfg, len_window).apply(result_tup).tolist(),
columns=['date', 'RSQ', 'Beta','StdErr'])
for _, dfg in df.groupby(np.arange(len(df))%day_freq)])\
.set_index('date').sort_index()
#and apply the np.sqrt on the column:
df_res['StdErr'] = np.sqrt(df_res['StdErr'])
你会变得更快:
RSQ Beta StdErr
date
2016-12-31 0.000107 0.010800 0.300927
2017-01-01 0.001380 0.036603 0.291804
2017-01-02 0.000870 -0.030364 0.294584
2017-01-03 0.003308 0.056052 0.280171
2017-01-04 0.005622 -0.081809 0.303257
... ... ... ...
2019-12-27 0.000147 0.012609 0.287182
2019-12-28 0.001144 -0.031921 0.268274
2019-12-29 0.000120 0.010720 0.289787
2019-12-30 0.000280 0.014995 0.278135
2019-12-31 0.018433 0.137605 0.293537
推荐阅读
- python - 在 2 个数据帧 python pandas 中查找并匹配一个字符串
- quickfixj - 使用 SSL 和代理时 QuickFIX/J 会话挂起
- javascript - 在 map() 函数中标记不会加载
- apache-spark - 使用 Kafka 使用 Synapse Spark 将数据帧写入 Azure EventHub
- docker - 使用卷副本将映像推送到另一个注册表
- python - ProgrammingError: (pyodbc.ProgrammingError) ('42000', '[42000] 使用 sqlalchemy 将 Dataframe/csv 文件导出到 sql server table 2018 的 Python 代码
- javascript - 如果函数通过属性添加到对象,则 function.name 返回空字符串
- python - 如何在 Django 请求处理程序线程中的 SIGTERM 上执行代码
- multiprocessing - 用于管理分布式 SpGEMM 的 Julia 包
- javascript - 我想制作一个范围滑块程序来获取用户的详细信息,然后向用户提供估计值,但我无法将值存储在变量中以供使用