python - 将每个第一个匹配行中的列值设置为 0
问题描述
我正在尝试检测时间戳之间的差异低于某个阈值的时间序列。为此,我将时间戳列表转换为秒,并测量每个时间戳之间的差异。我已经编写了代码来执行此操作,但问题是当我测量天之间的差异时,每天第一行的时间差值应该为零。所以86390
下面数据框中的值应该是0。这只是一个人为的例子。对于多个组,如何将每个组中的第一个条目设置为 0 ?
代码 :
import pandas as pd
arr= []
df = pd.DataFrame(
{'date': ['2019-01-01 00:02:48.714000' , '2019-01-01 00:02:58.714000' , '2019-01-02 00:02:48.714000' , '2019-01-02 00:04:48.714000'],
'id': [1 , 2 , 3 , 4],
})
df['date'] = pd.to_datetime(df['date'])
for d in df['date'] :
arr.append(d.timestamp())
df.sort_values(by=['date'])
df['TIME_IN_SEC'] = arr
df['TIME_IN_SEC_SHIFT'] = df.TIME_IN_SEC.shift(1)
df['TIME_DIFF'] = df["TIME_IN_SEC"] - df["TIME_IN_SEC_SHIFT"]
list_values = []
for g in df.groupby(pd.Grouper(key='date',freq='D')) :
list_values.append(sum(g[1]['TIME_DIFF']) / len(g[1]))
df
呈现:
解决方案
要将每天的第一行设置为零,您可以按日期列分组,但提取实际日期值,然后聚合到“第一”行。从此为“id”列创建一个系列。(我假设它们是唯一值。)
id_filt = df.groupby(df.date.dt.date).first()['id']
然后使用 loc 仅返回具有“id”值的行,然后将列设置为零。
df.loc[df["id"].isin(id_filt.values), ["TIME_IN_SEC_SHIFT", "TIME_DIFF"]] = 0
date id TIME_IN_SEC TIME_IN_SEC_SHIFT TIME_DIFF
0 2019-01-01 00:02:48.714 1 1.546301e+09 0.000000e+00 0.0
1 2019-01-01 00:02:58.714 2 1.546301e+09 1.546301e+09 10.0
2 2019-01-02 00:02:48.714 3 1.546387e+09 0.000000e+00 0.0
3 2019-01-02 00:04:48.714 4 1.546387e+09 1.546387e+09 120.0
当然,您可以将它们组合在一起以获得:
df.loc[
df["id"].isin(df.groupby(df.date.dt.date).first()["id"].values),
["TIME_IN_SEC_SHIFT", "TIME_DIFF"],
] = 0
推荐阅读
- wso2 - WSO2 流处理器是否支持多租户?
- python - Docutils在nodes.Text中文本和原始资源之间的区别?
- python - 为什么我的变量名在 root 中定义但在 Top-level 中无法识别?
- python - ModuleNotFoundError:Pycharm 中没有名为“dns”的模块
- vue.js - Vuex 异步/等待调度
- java - 如何使用 swagger、openapi 和生成器处理不兼容的 api 更改
- python - Selenium webdriver python无法上传文件-send_keys抛出ElementNotInteractable
- python - 重定向到 django 上的不同页面
- mongodb - 在 MongoDB 中向 $lookup 结果添加一个字段
- c++ - 在 C++ 中为我的类型为 vscode 调试器创建“可视化器”