pandas - 如何计算部分更新信息的均值、中位数和标准差?
问题描述
我有一个dataframe
(命名:)basic_df
具有以下属性和特征:
- df 有 ~900K 行和 25 列
- 每隔几分钟(约 9-10 分钟),最旧的行(约 5000 行)会被删除,新行(约 5000 行)会插入此
dataframe
(basic_df
) - 从这个
dataframe
(basic_df
) 我正在运行一个创建功能的进程。其中一些特征包含mean/median/std
来自basic_df
有没有一种有效的方法来计算mean/median/std
而不遍历所有行。(即考虑到删除和新行并有效计算mean/median/std
)
当 <1% 的数据是新数据时,一遍又一遍地检查约 900K 行似乎很繁重。