首页 > 解决方案 > 从系列中找到重要的值

问题描述

我有一个带索引的系列,计数可以是 0 到 1000。我可以选择值大于 3 的所有条目但是查看数据后,我决定选择值大于 10 的所有条目,因为有些值明显高于其他值!

s[s > 3].dropna()

-PB-[variable][variable]    8.0
-[variable] 15.0
-[variable][variable]   6.0
A-[variable][variable]  5.0
B   5.0
B-[variable][variable]  5.0
Book    4.0
Bus 8.0
Date    5.0
Dear    1609.0
MR  4.0
Man[variable]   4.0
Number[variable]    5.0
PM[variable]    4.0
Pickup  12.0
Pump[variable]  5.0
RJ  9.0
RJ-[variable]-PB-[variable][variable]   6.0
Time[variable]  6.0
[variable]  103.0
[variable][variable]    15.0

我已经将我的查询细化为这样的......

s[s > 10].dropna()

-[variable] 15.0
Dear    1609.0
Pickup  12.0
[variable]  103.0
[variable][variable]    15.0

pandas 中是否有任何功能可以返回重要条目。我可以按降序排序并选择前 5 个或 10 个,但不能保证这些条目与平均值相比会非常高。在这种情况下,我宁愿选择所有条目。

也就是说,我在查看数据后确定了本例中的阈值 10。有什么方法可以以编程方式选择该值吗?

标签: pandas

解决方案


使用quntile方法选择阈值可能是更好的解决方案,但仍然不是确切的答案。


推荐阅读