python - 用熊猫分箱
问题描述
我在 pandas 中有一个如下所示的数据框。索引是日期时间对象,按天排序,以 5 分钟为单位。我有一个名为“col1”的列。所以如果我这样做
df['col1']
我得到:
DateTime
2008-04-28 09:40:00 300.0
2008-04-28 09:45:00 -800.0
2008-04-28 09:50:00 0.0
2008-04-28 09:55:00 -100.0
2008-04-28 10:00:00 0.0
2008-04-29 09:40:00 500.0
2008-04-29 09:45:00 800.0
2008-04-29 09:50:00 100.0
2008-04-29 09:55:00 -100.0
2008-04-29 10:00:00 0.0
我在原始数据框中使用 groupby 获得了 pandas 中的另一个数据框
df2 = df([df.index.time])[['col2']].mean()
输出:
col2
09:40:00 4603.585657
09:45:00 5547.011952
09:50:00 8532.007952
09:55:00 6175.298805
10:00:00 4236.055777
我想做的是在不使用 for 循环的情况下将 col1 除以 col2 为每个 5 分钟的垃圾箱。为了更好地解释,对于所有的日子,对于每个 bin 将 col1 除以 col2。例如,将 col1 中的所有 9:40:00 值除以 col2 中的 9:40:00 值。
我不知道如何在没有 for 循环的情况下开始执行此操作,但我的印象是它应该可以使用 pandas。
预期的输出是:
DateTime
2008-04-28 09:40:00 300.0/4603.585657
2008-04-28 09:45:00 -800.0/5547.011952
2008-04-28 09:50:00 0.0/8532.007952
2008-04-28 09:55:00 -100.0/6175.298805
2008-04-28 10:00:00 0.0/4236.055777
2008-04-29 09:40:00 500.0/4603.585657
2008-04-29 09:45:00 800.0/5547.011952
2008-04-29 09:50:00 100.0/8532.007952
2008-04-29 09:55:00 -100.0/6175.298805
2008-04-29 10:00:00 0.0/4236.055777
解决方案
如果需要除以倍:
df['new'] = df['col1'].div(df.groupby(df.index.time)['col1'].transform('mean'))
print (df)
col1 new
DateTime
2008-04-28 09:40:00 300.0 0.75
2008-04-28 09:45:00 -800.0 -inf
2008-04-28 09:50:00 0.0 0.00
2008-04-28 09:55:00 -100.0 1.00
2008-04-28 10:00:00 0.0 NaN
2008-04-29 09:40:00 500.0 1.25
2008-04-29 09:45:00 800.0 inf
2008-04-29 09:50:00 100.0 2.00
2008-04-29 09:55:00 -100.0 1.00
2008-04-29 10:00:00 0.0 NaN
或者如果需要按天划分:
df['new'] = df['col1'].div(df.groupby(df.index.date)['col1'].transform('mean'))
print (df)
col1 new
DateTime
2008-04-28 09:40:00 300.0 -2.500000
2008-04-28 09:45:00 -800.0 6.666667
2008-04-28 09:50:00 0.0 -0.000000
2008-04-28 09:55:00 -100.0 0.833333
2008-04-28 10:00:00 0.0 -0.000000
2008-04-29 09:40:00 500.0 1.923077
2008-04-29 09:45:00 800.0 3.076923
2008-04-29 09:50:00 100.0 0.384615
2008-04-29 09:55:00 -100.0 -0.384615
2008-04-29 10:00:00 0.0 0.000000
推荐阅读
- python - 在 Json 中通过 python 访问 kdb+/q 表?
- python - 将 TensorFlow 模型转换为 tensorflow-lite (.tflite) 格式时出现问题
- bash - 设置 cron-tab 以在 /var/log 中写入日志
- javascript - 更新可变刀片模板
- delphi - 带十进制值的 TProgressBar
- php - 如何从 Wordpress 管理员替换帖子和页面的所有外部/预览
- c# - 如何将 dd/mm/yyyy 转换为 M/d/yyyy
- angular - 当量角器无法找到元素时,获取 EADDRINUSE 连接 EADDRINUSE
- django - Django staic 和管理静态 css 文件已加载但未应用于页面
- cocoa - NSTextView textDidChange 未通过绑定调用