python - 计算一段时间内的平均值,而不是组内的平均值
问题描述
随着时间的推移,我无法获得平均值。
我有一个特定时间的传感器读数列表,我想获得传感器值的每小时平均值。
from datetime import datetime, timedelta
import numpy
import pandas
key_id = 1234
key_label = "Sensor1"
t_0 = datetime(2010,1,2,12)
data = [
[t_0 - timedelta(seconds=120), key_id, 0],
[t_0 + timedelta(seconds=1800), key_id, 1],
[t_0 + timedelta(seconds=3600 + 300), key_id, 121],
[t_0 + timedelta(seconds=3600 + 360), key_id, 1],
[t_0 + timedelta(seconds=7200 + 1800), key_id, 2],
]
df = pandas.DataFrame(list(map(lambda r: list(r), data)), columns=["TS", "KeyId", "Value"])
df_pivot = (df
.pivot(index="TS", columns="KeyId", values="Value")
.ffill()
.rename({key_id: key_label}, axis='columns')
)
def mymean(*args, **kwargs):
expected_results = [numpy.NaN, 0.5, 3, 1.5]
d0 = args[0].index[0]
if d0 == data[0][0]:
return expected_results[0]
if d0 == data[1][0]:
return expected_results[1]
if d0 == data[2][0]:
return expected_results[2]
if d0 == data[4][0]:
return expected_results[3]
return "???"
results = (df_pivot
.resample('1H')
.agg(["min", "max", "mean", "count", mymean])
)
display(df_pivot)
display(results)
预期结果在列中mymean
。13:00 到 14:00 之间有两个值。这两个值的平均值为 61,但传感器仅停留在 121 分钟,因此预期平均值应为 3(对于懒惰的读者:(1*59 + 121*1) / 60)。
KeyId Sensor1
TS
2010-01-02 11:58:00 0
2010-01-02 12:30:00 1
2010-01-02 13:05:00 121
2010-01-02 13:06:00 1
2010-01-02 14:30:00 2
Sensor1
min max mean count mymean
TS
2010-01-02 11:00:00 0 0 0 1 NaN
2010-01-02 12:00:00 1 1 1 1 0.5
2010-01-02 13:00:00 1 121 61 2 3.0
2010-01-02 14:00:00 2 2 2 1 1.5
我可以对采样频率进行上采样ffill
并取平均值,但这看起来效率很低。
解决方案
我是这样做的:
- 添加行标记每个组的开头,给它们值
ffill
:
extra_times = pandas.date_range(t_0, periods=3, freq='1H')
pdf_reindexed = (pandas
.concat([pdf_query, pandas.DataFrame(index=extra_times)], sort=False)
.sort_index()
.ffill()
)
- 添加差异列
span
:
timestamp = pdf_reindexed.index.to_series()
pdf_reindexed["span"] = (timestamp.shift(-1) - timestamp).dt.seconds
- 乘以:
value
_span
pdf_reindexed["product"] = pdf_reindexed["span"] * pdf_reindexed["Sensor1"]
- 聚合和分割:
pdf_time_mean = (pdf_reindexed
.resample("1H")
.agg({"product": "sum"})
)
pdf_time_mean["product"] = pdf_time_mean["product"] / 3600
推荐阅读
- google-apps-script - 将 Google Admin SDK Reports API 与 Google 应用制作工具一起使用
- c# - EditorTemplate ASP MVC 5 的自定义验证
- docker - 不同容器的相同泊坞窗图像
- javascript - 如何将另一个选项卡动态添加到引导选项卡
- java - Vert.x HttpClient 不会重新连接到重新启动的服务器
- join - 按一列合并两个文件 - awk
- angular - Chrome Web App Manifest 保留查询参数
- karate - 如何在空手道框架中断言子字符串
- vba - 如何从 csv 中删除表情符号
- wpf - mvvm 更新计算字段