首页 > 解决方案 > 在 Python Pandas 的 DataFrame 中使用日期?

问题描述

我有如下数据框:

rng = pd.date_range('2020-12-01', periods=5, freq='D')
df = pd.DataFrame({"ID" : ["1", "2", "1", "1", "2"],
                   "Date" : rng,
                   "status" : ["B2", "G8", "G8", "R7", "G8"]})

我需要创建 DataFrame 将在哪里:

  1. 新 1 = 具有 B2 状态的最后协议的日期
  2. 新 2 = G8 状态的最后协议日期

下面我上传我需要的结果:

在此处输入图像描述

标签: pythonpandasdataframedateaggregation

解决方案


status第一个想法是仅使用by过滤行,Series.isin然后使用DataFrame.pivot_table聚合last函数:

df = (df[df['status'].isin(['B2','G8'])]
        .pivot_table(index='ID', columns='status', values='Date', aggfunc='last')
        .rename(columns={'B2':'New1','G8':'New2'})
        .reset_index()
        .rename_axis(None, axis=1)
        )

print (df)
  ID       New1       New2
0  1 2020-12-01 2020-12-03
1  2        NaT 2020-12-05

status或者您可以用to NaTin替换不匹配的行Date

df = (df.assign(Date = df['Date'].where(df['status'].isin(['B2','G8'])))
        .pivot_table(index='ID', columns='status', values='Date', aggfunc='last')
        .rename(columns={'B2':'New1','G8':'New2'})
        .reset_index()
        .rename_axis(None, axis=1)
        )

推荐阅读