首页 > 解决方案 > 过滤小时差 - pandas

问题描述

原始数据

时间阈值 2

时间阈值 4

我正在尝试编写一个代码来过滤掉小的时间差。图 1 显示了原始数据。图 2 和 3 显示了阈值分别定义为 2 和 4 的预期输出。

我已经尝试使用 for 循环 - 它有效,但我不喜欢数据框中的“替换”。我想检查是否有更好的方法来做到这一点,可以潜在地避免替代并且可以扩展到更大的数据集。谢谢

这是我的代码:

time_threshold = 2
for i in range(data.shape[0]):
    if (data.iloc[i].time_diff <= time_threshold):
        data['start'].iloc[i] = data.iloc[i-1].start        
data = data.drop_duplicates(subset = 'start', keep = 'last')

标签: pythonpandasfilter

解决方案


推荐阅读