python - 在 Python Pandas 的 DataFrame 中使用日期?
问题描述
我有如下数据框:
rng = pd.date_range('2020-12-01', periods=5, freq='D')
df = pd.DataFrame({"ID" : ["1", "2", "1", "1", "2"],
"Date" : rng,
"status" : ["B2", "G8", "G8", "R7", "G8"]})
我需要创建 DataFrame 将在哪里:
- 新 1 = 具有 B2 状态的最后协议的日期
- 新 2 = G8 状态的最后协议日期
下面我上传我需要的结果:
解决方案
status
第一个想法是仅使用by过滤行,Series.isin
然后使用DataFrame.pivot_table
聚合last
函数:
df = (df[df['status'].isin(['B2','G8'])]
.pivot_table(index='ID', columns='status', values='Date', aggfunc='last')
.rename(columns={'B2':'New1','G8':'New2'})
.reset_index()
.rename_axis(None, axis=1)
)
print (df)
ID New1 New2
0 1 2020-12-01 2020-12-03
1 2 NaT 2020-12-05
status
或者您可以用to NaT
in替换不匹配的行Date
:
df = (df.assign(Date = df['Date'].where(df['status'].isin(['B2','G8'])))
.pivot_table(index='ID', columns='status', values='Date', aggfunc='last')
.rename(columns={'B2':'New1','G8':'New2'})
.reset_index()
.rename_axis(None, axis=1)
)