python - RMSE 每月或每小时按月使用 apply 和 python
问题描述
我有这个数据框:
dates,AA,BB,CC
2018-01-01 00:00:00,45.73,47.63,3.45625
2018-01-01 01:00:00,44.16,44.42,3.45625
2018-01-01 02:00:00,42.24,42.34,3.45625
2018-01-01 03:00:00,39.29,38.36,3.45625
2018-01-01 04:00:00,36,36.87,3.45625
2018-01-01 05:00:00,41.99,39.79,3.45625
2018-01-01 06:00:00,42.25,42.08,3.45625
2018-01-01 07:00:00,44.97,51.19,3.45625
2018-01-01 08:00:00,45,59.69,3.45625
2018-01-01 09:00:00,44.94,56.67,3.45625
2018-01-01 10:00:00,45.04,53.54,3.45625
2018-01-01 11:00:00,46.67,52.6,3.45625
2018-01-01 12:00:00,46.99,50.77,3.45625
2018-01-01 13:00:00,44.16,50.27,3.45625
2018-01-01 14:00:00,45.26,50.64,3.45625
2018-01-01 15:00:00,47.84,54.79,3.45625
2018-01-01 16:00:00,50.1,60.17,3.45625
2018-01-01 17:00:00,54.3,59.47,3.45625
2018-01-01 18:00:00,51.91,60.16,3.45625
2018-01-01 19:00:00,51.38,70.81,3.45625
2018-01-01 20:00:00,49.2,62.65,3.45625
2018-01-01 21:00:00,45.73,59.71,3.45625
2018-01-01 22:00:00,44.84,50.96,3.45625
2018-01-01 23:00:00,38.11,46.52,3.45625
2018-01-02 00:00:00,19.19,49.62,3.405
2018-01-02 01:00:00,14.99,45.05,3.405
2018-01-02 02:00:00,11,45.18,3.405
2018-01-02 03:00:00,10,37.12,3.405
2018-01-02 04:00:00,11.83,38.03,3.405
2018-01-02 05:00:00,14.99,46.17,3.405
2018-01-02 06:00:00,40.6,51.71,3.405
2018-01-02 07:00:00,46.99,54.37,3.405
2018-01-02 08:00:00,47.95,75.3,3.405
2018-01-02 09:00:00,49.9,68.48,3.405
2018-01-02 10:00:00,50,61.94,3.405
2018-01-02 11:00:00,49.7,63.26,3.405
2018-01-02 12:00:00,48.16,59.41,3.405
2018-01-02 13:00:00,47.24,60,3.405
2018-01-02 14:00:00,46.1,67.44,3.405
2018-01-02 15:00:00,47.6,66.82,3.405
2018-01-02 16:00:00,50.45,72.17,3.405
2018-01-02 17:00:00,54.9,70.28,3.405
2018-01-02 18:00:00,57.18,62.63,3.405
基本上,每小时的日期从 2018-01-01 到 2018-12-31。
我想通过应用方法或等效方法做不同的事情。首先,我想以 AA 作为参考解决方案计算 BB 和 CC 之间的月度均方根误差(均方根误差)。我这样做如下:
dfr = dfr.assign(month=lambda x: x.index.month).groupby('month')
rmseBB = dfr.apply(rmse, s1='AA',s2='BB')
rmseCC = dfr.apply(rmse, s1='AA',s2='CC')
这里是 rmse 函数:
def rmse(group,s1,s2):
if len(group) == 0:
return np.nan
s = (group[s1] - group[s2]).pow(2).sum()
print(len(group))
rmseO = np.sqrt(s / len(group))
return rmseO
根据给定的结果,前面的过程似乎可以正常工作。
除此之外,我想做一些更复杂的事情,至少根据我的实际知识。
我想计算属于同一月份的每个小时的 RMSE。我的意思是一月份的每个第一个小时的 RMSE,一月份的每个第二个小时的 RMSE,依此类推。这意味着每个月有 24 个 RMSE 值。之后,我可以计算每个月的平均小时 RMSE。更重要的是,我希望能够在平均每小时 RMSE 中选择要考虑的时间。
这意味着一种双重分组,每月和每小时。我错了吗?
我希望自己清楚。
感谢您提供任何帮助。
迭戈
解决方案
您可以按照以下方式进行
import pandas as pd
df=pd.read_csv("Dates.csv")
year=['01','02','03','04','05','06','07','08','09','10','11','12']
time=list('0'+str(x) for x in range(10))+list(str(x) for x in range(11,24))
for i in year:
df_mon=df[(df['dates'].apply(lambda x:x.split()[0][5:7])==i)]
if len(df_mon)==0:
continue
for j in time:
df_time=df_mon[(df_mon['dates'].apply(lambda x:x.split()[1][0:2])==j)]
RMSE_BB=pow(pow(df_time['AA']-df_time['BB'],2).mean(),0.5)
RMSE_CC=pow(pow(df_time['AA']-df_time['CC'],2).mean(),0.5)
print(i,j,RMSE_BB, RMSE_CC)
推荐阅读
- asp.net-core - 验证电子邮件地址无效
- spring-boot - JUnit - 如何模拟 MapStruct 嵌套映射器
- json - 如何从打字稿中的json获取连接键列表
- python - GQL 查询限制
- java - java.lang.String类型的值连接无法转成JSONObject Android
- javascript - Xamarin 本地加载 JS 脚本
- r - Save.image() 响应 gzfile 中的错误
- python - 如何从数据框列中提取特定项目并将它们用作剩余项目的标签?
- three.js - 在框架中克隆实体
- abap - 通过 GUI 调用的分层 ALV 报告有 18 列,但通过 RFC 只有 6 列。为什么?