python - 在 Pandas 中填写缺失的每小时数据
问题描述
我有一个数据框,其中包含具有每小时测量值的时间序列,其结构如下:name、time、output。对于每个名称,测量值或多或少来自相同的时间段。我正在尝试填写缺失值,以便每天所有 24 小时都出现在时间列中。
所以我期待这样的表格:
name time output
x 2018-02-22 00:00:00 100
...
x 2018-02-22 23:00:00 200
x 2018-02-24 00:00:00 300
...
x 2018-02-24 23:00:00 300
y 2018-02-22 00:00:00 100
...
y 2018-02-22 23:00:00 200
y 2018-02-25 00:00:00 300
...
y 2018-02-25 23:00:00 300
为此,我按名称分组,然后尝试应用一个自定义函数,在相应的数据框中添加缺少的时间戳。
def add_missing_hours(df):
start_date = df.time.iloc[0].date()
end_date = df.time.iloc[-1].date()
dates_range = pd.date_range(start_date, end_date, freq = '1H')
new_dates = set(dates_range) - set(df.time)
name = df["name"].iloc[0]
df = df.append(pd.DataFrame({'GSRN':[name]*len(new_dates), 'time': new_dates}))
return df
由于某种原因,当我创建 DataFrame 时,名称列被删除了,但我不明白为什么。有谁知道为什么或有更好的想法如何填写缺少的时间戳?
编辑1:
这与 [这里的问题][1] 不同,因为他们不需要每天 24 个值——在下午 2 点到 10 点之间重新采样只会给出两者之间的值。
编辑2:
我通过创建包含所有名称-时间戳对的多索引并与表结合找到了一个(不是很好)解决方案。以下代码适用于任何感兴趣但仍对更好的解决方案感兴趣的人:
start_date = datetime.datetime.combine(df.time.min().date(),datetime.time(0, 0))
end_date = datetime.datetime.combine(df.time.max().date(),datetime.time(23, 0))
new_idx = pd.date_range(start_date, end_date, freq = '1H')
mux = pd.MultiIndex.from_product([df['name'].unique(),new_idx], names=('name','time'))
df_complete = pd.DataFrame(index=mux).reset_index().combine_first(df)
df_complete = df_complete.groupby(["name",df_complete.time.dt.date]).filter(lambda g: (g["output"].count() == 0))
最后一行删除了初始数据框中特定名称完全缺失的任何日期。
解决方案
尝试:
第一次创建从最小日期到最大日期的数据框,以小时为间隔。然后将它们连接在一起。
df.time = pd.to_datetime(df.time)
min_date = df.time.min()
max_date = df.time.max()
dates_range = pd.date_range(min_date, max_date, freq = '1H')
df.set_index('time', inplace=True)
df3=pd.DataFrame(dates_range).set_index(0)
df4 = df3.join(df)
df4:
name output
2018-02-22 00:00:00 x 100.0
2018-02-22 00:00:00 y 100.0
2018-02-22 01:00:00 NaN NaN
2018-02-22 02:00:00 NaN NaN
2018-02-22 03:00:00 NaN NaN
... ... ...
2018-02-25 19:00:00 NaN NaN
2018-02-25 20:00:00 NaN NaN
2018-02-25 21:00:00 NaN NaN
2018-02-25 22:00:00 NaN NaN
2018-02-25 23:00:00 y 300.0
98 rows × 2 columns
推荐阅读
- r - 根据每组的最后一次观察删除一个子组
- authentication - AddOpenIdConnect() 和 DefaultPolicy 作为 FallbackPolicy 导致 signin-oidc 循环
- flask - Heroku Flask 部署 - 应用程序错误
- xml - XPath:比较所有属性的第一个和最后一个并返回唯一值
- spring-boot - 如何从 application.yml 中读取 Long 类型的值
- prometheus - Nginx Prometheus 导出器无法启动连接被拒绝错误
- python - 如何在不使用 kv 文件的情况下向弹出窗口内的 Kivy 按钮添加圆角?
- .net - 带有 dbcontext 参数的单元测试控制器
- flutter - Flutter 使用“.withOpacity”导致“该字段被初始化为非常数值”
- assembly - nasm 引导扇区中可能存在语法问题