首页 > 解决方案 > 如何用其他列的下 n 个条目的最小值填充 DataFrame 列

问题描述

我有一个数据框:

import numpy as np
import pandas as pd
np.random.seed(18)
df = pd.DataFrame(np.random.randint(0,50,size=(10, 2)), columns=list('AB'))
df['Min'] = np.nan
n = 3   # can be changed

在此处输入图像描述

我需要用“B”列的下 n 个条目的最小值填充“Min”列: 在此处输入图像描述

目前我使用迭代来做到这一点:

for row in range (0, df.shape[0]-n):
    low = []
    for i in range (1, n+1):
        low.append(df.loc[df.index[row+i], 'B'])
    df.loc[df.index[row], 'Min'] = min(low)

但这是一个相当缓慢的过程。请问有没有更有效的方法?谢谢你。

标签: pythonperformancepandasdataframe

解决方案


rollingmin然后一起使用shift

df['Min'] = df['B'].rolling(n).min().shift(-n)
print (df)
    A   B   Min
0  42  19   2.0
1   5  49   2.0
2  46   2  17.0
3   8  24  17.0
4  34  17  11.0
5   5  21   4.0
6  47  42   1.0
7  10  11   NaN
8  36   4   NaN
9  43   1   NaN

如果性能很重要,请使用此解决方案

def rolling_window(a, window):
    shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
    strides = a.strides + (a.strides[-1],)
    return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)
arr = rolling_window(df['B'].values, n).min(axis=1)
df['Min'] = np.concatenate([arr[1:], [np.nan] * n])
print (df)
    A   B   Min
0  42  19   2.0
1   5  49   2.0
2  46   2  17.0
3   8  24  17.0
4  34  17  11.0
5   5  21   4.0
6  47  42   1.0
7  10  11   NaN
8  36   4   NaN
9  43   1   NaN

推荐阅读