python - 使用相邻行计算 Pandas Dataframe 中的列而不遍历每一行
问题描述
我想看看是否有一种方法可以计算数据框中的列,该列使用类似于移动平均线的东西而无需遍历每一行。当前工作代码:
def create_candles(ticks, instrument, time_slice):
candlesticks = ticks.price.resample(time_slice, base=00).ohlc().bfill()
volume = ticks.amount.resample(time_slice, base=00).sum()
candlesticks['volume'] = volume
candlesticks['instrument'] = instrument
candlesticks['ttr'] = 0
# candlesticks['vr_7'] = 0
candlesticks['vr_10'] = 0
candlesticks = calculate_indicators(candlesticks, instrument, time_slice)
return candlesticks
def calculate_indicators(candlesticks, instrument):
candlesticks.sort_index(inplace=True)
# candlesticks['rsi_14'] = talib.RSI(candlesticks.close, timeperiod=14)
candlesticks['lr_50'] = talib.LINEARREG(candlesticks.close, timeperiod=50)
# candlesticks['lr_150'] = talib.LINEARREG(candlesticks.close, timeperiod=150)
# candlesticks['ema_55'] = talib.EMA(candlesticks.close, timeperiod=55)
# candlesticks['ema_28'] = talib.EMA(candlesticks.close, timeperiod=28)
# candlesticks['ema_18'] = talib.EMA(candlesticks.close, timeperiod=18)
# candlesticks['ema_9'] = talib.EMA(candlesticks.close, timeperiod=9)
# candlesticks['wma_21'] = talib.WMA(candlesticks.close, timeperiod=21)
# candlesticks['wma_12'] = talib.WMA(candlesticks.close, timeperiod=12)
# candlesticks['wma_11'] = talib.WMA(candlesticks.close, timeperiod=11)
# candlesticks['wma_5'] = talib.WMA(candlesticks.close, timeperiod=5)
candlesticks['cmo_9'] = talib.CMO(candlesticks.close, timeperiod=9)
for row in candlesticks.itertuples():
current_index = candlesticks.index.get_loc(row.Index)
if current_index >= 1:
previous_close = candlesticks.iloc[current_index - 1, candlesticks.columns.get_loc('close')]
candlesticks.iloc[current_index, candlesticks.columns.get_loc('ttr')] = max(
row.high - row.low,
abs(row.high - previous_close),
abs(row.low - previous_close))
if current_index > 10:
candlesticks.iloc[current_index, candlesticks.columns.get_loc('vr_10')] = candlesticks.iloc[current_index, candlesticks.columns.get_loc('ttr')] / (
max(candlesticks.high[current_index - 9: current_index].max(), candlesticks.close[current_index - 11]) -
min(candlesticks.low[current_index - 9: current_index].min(), candlesticks.close[current_index - 11]))
candlesticks['timestamp'] = pd.to_datetime(candlesticks.index)
candlesticks['instrument'] = instrument
candlesticks.fillna(0, inplace=True)
return candlesticks
在迭代中,我正在计算真实范围('TTR'),然后是波动率('VR_10')
TTR 是在除第一行之外的 DF 中的每一行上计算的。它使用前一行的关闭列,以及当前行的高低列。
VR_10 在除前 10 行之外的每一行上计算。它使用前 9 行的高低列和第 10 行后面的收盘。
编辑 2 我已经尝试了很多方法来在这个问题中添加一个基于文本的数据框,但我的框架宽度似乎没有解决方案。除了列 TTR 和 VR_10 在输入中全为 0 并且在输出中具有非零值之外,输入和输出数据帧没有区别。一个例子是这个数据框:
有没有一种方法可以在没有迭代的情况下做到这一点?
解决方案
在 Andreas 的推动下使用滚动,我得出了一个答案:首先,我必须找出如何在多列中使用滚动。发现这里。我进行了修改,因为我需要向上滚动,而不是向下滚动
def roll(df, w, **kwargs):
df.sort_values(by='timestamp', ascending=0, inplace=True)
v = df.values
d0, d1 = v.shape
s0, s1 = v.strides
a = stride(v, (d0 - (w - 1), w, d1), (s0, s0, s1))
rolled_df = pd.concat({
row: pd.DataFrame(values, columns=df.columns)
for row, values in zip(df.index, a)
})
return rolled_df.groupby(level=0, **kwargs)
之后,我创建了 2 个函数:
def calculate_vr(window):
return window.iloc[0].ttr / (max(window.high[1:9].max(), window.iloc[10].close) - min(window.low[1:9].min(), window.iloc[10].close))
def calculate_ttr(window):
return max(window.iloc[0].high - window.iloc[0].low, abs(window.iloc[0].high - window.iloc[1].close), abs(window.iloc[0].low - window.iloc[1].close))
并像这样调用这些函数:
candlesticks['ttr'] = roll(candlesticks, 3).apply(calculate_ttr)
candlesticks['vr_10'] = roll(candlesticks, 11).apply(calculate_vr)
两种方式都添加了计时器,这种方式比迭代慢大约 3 倍。
推荐阅读
- .net - 带有验证的文本框。即使输入的文本无效,如何更新目标属性?
- javascript - 如何在每个项目上运行同步 POST?
- php - Jquery Ajax - 在 Ajax 中发布巨大的字符串值
- sql - 在 Eloquent 数据库选择中将日期时间转换为时间戳
- uwp - 应用激活失败
- java - 如何使用 findAny() 而不返回 null
- ios - 如何在 iOS 中使用 Radius 和 rank=distance 搜索附近的地方
- php - 如何根据从数据库填充的下拉框中的值获取文本字段中的数据?
- parameters - 将变量传递给颤振中的void函数
- python - 如何创建自己的数据集以使用来自 Tensorflow 对象检测 API 的 Mask-RCNN 模型?