python - 按分位数对 Pandas 数据帧进行排名
问题描述
我有一个 Pandas 数据框,其中每一列代表一个单独的属性,每一行都包含特定日期的属性值:
import pandas as pd
dfstr = \
''' AC BO C CCM CL CRD CT DA GC GF
2010-01-19 0.844135 -0.194530 -0.231046 0.245615 -0.581238 -0.593562 0.057288 0.655903 0.823997 0.221920
2010-01-20 -0.204845 -0.225876 0.835611 -0.594950 -0.607364 0.042603 0.639168 0.816524 0.210653 0.237833
2010-01-21 0.824852 -0.216449 -0.220136 0.234343 -0.611756 -0.624060 0.028295 0.622516 0.811741 0.201083'''
df = pd.read_csv(pd.compat.StringIO(dfstr), sep='\s+')
使用该rank
方法,我可以找到每个属性相对于特定日期的百分位等级:
df.rank(axis=1, pct=True)
输出:
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 1.0 0.4 0.3 0.7 0.2 0.1 0.5 0.8 0.9 0.6
2010-01-20 0.4 0.3 1.0 0.2 0.1 0.5 0.8 0.9 0.6 0.7
2010-01-21 1.0 0.4 0.3 0.7 0.2 0.1 0.5 0.8 0.9 0.6
我想得到的是每个属性的分位数(例如四分位数、五分位数、十分位数等)等级。例如,对于五分位数排名,我想要的输出是:
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 5 2 2 4 1 1 3 4 5 3
2010-01-20 2 2 5 1 1 3 4 5 3 4
2010-01-21 5 2 2 4 1 1 3 4 5 3
我可能遗漏了一些东西,但似乎没有内置的方法可以用 Pandas 进行这种分位数排名。获得所需输出的最简单方法是什么?
解决方案
方法1 mul
&np.ceil
你的排名非常接近。只需乘以 5.mul
即可获得所需的分位数,也可使用 进行四舍五入np.ceil
:
np.ceil(df.rank(axis=1, pct=True).mul(5))
Output
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 5.0 2.0 2.0 4.0 1.0 1.0 3.0 4.0 5.0 3.0
2010-01-20 2.0 2.0 5.0 1.0 1.0 3.0 4.0 5.0 3.0 4.0
2010-01-21 5.0 2.0 2.0 4.0 1.0 1.0 3.0 4.0 5.0 3.0
如果你想要整数使用astype
:
np.ceil(df.rank(axis=1, pct=True).mul(5)).astype(int)
甚至更好
因为 pandas 版本0.24.0我们有可为空的整数类型:Int64
.
所以我们可以使用:
np.ceil(df.rank(axis=1, pct=True).mul(5)).astype('Int64')
Output
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 5 2 2 4 1 1 3 4 5 3
2010-01-20 2 2 5 1 1 3 4 5 3 4
2010-01-21 5 2 2 4 1 1 3 4 5 3
方法二scipy.stats.percentileofscore
d = df.apply(lambda x: [np.ceil(stats.percentileofscore(x, a, 'rank')*0.05) for a in x], axis=1).values
pd.DataFrame(data=np.concatenate(d).reshape(d.shape[0], len(d[0])),
columns=df.columns,
dtype='int',
index=df.index)
Output
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 5 2 2 4 1 1 3 4 5 3
2010-01-20 2 2 5 1 1 3 4 5 3 4
2010-01-21 5 2 2 4 1 1 3 4 5 3
推荐阅读
- c++ - 无法初始化枚举类类型 | 视觉 C++
- wmi - 我正在寻找返回一个或另一个值的 WQL (WMI SQL) 查询
- android - Android - 蓝牙 API createRfcommSocket 与 createRfcommSocketToServiceRecord
- sql - SQL 错误 [42704]: 错误: 大对象 xxxxxxx 不存在
- android - 如何使用拦截器更改@Query 参数?
- kotlin - Kotlin - SQLiteDatabase - 不确定如何让列文本显示在 ViewHolder 中
- python - Python-docx用连续编号替换字符串
- excel - 如何修改 Google 应用脚本以从 2 列而不是 1 列搜索并在两列匹配时返回整行?
- sql - 如何避免 SQL 中 SELECT、GROUP BY 和 ORDER BY 中的函数重复
- node.js - 如何在 Twilio 无服务器功能中将 googleapis google.auth.GoogleAuth() 用于 google API 服务帐户?