首页 > 解决方案 > 如何计算部分更新信息的均值、中位数和标准差?

问题描述

我有一个dataframe(命名:)basic_df具有以下属性和特征:

  1. df 有 ~900K 行和 25 列
  2. 每隔几分钟(约 9-10 分钟),最旧的行(约 5000 行)会被删除,新行(约 5000 行)会插入此dataframe( basic_df)
  3. 从这个dataframe( basic_df) 我正在运行一个创建功能的进程。其中一些特征包含mean/median/std来自basic_df

有没有一种有效的方法来计算mean/median/std而不遍历所有行。(即考虑到删除和新行并有效计算mean/median/std

当 <1% 的数据是新数据时,一遍又一遍地检查约 900K 行似乎很繁重。

标签: pandasnumpymeanmedian

解决方案


推荐阅读