python - 如何根据id的groupby从先前的测量中创建一个标记(1 - 体重减轻;0 - 相同体重a)体重减轻(8%或更多)的列?
问题描述
我有一个数据框df:
import pandas as pd
df = pd.DataFrame({"CLIENT_ID": [8222, 8222, 8222, 8222, 8300, 8300, 8300, 8300, 8300],
"ENCOUNTER_DATE": ['2020-01-01', '2020-03-02', '2020-04-18', '2020-07-31', '2017-06-10', '2017-09-11', '2018-02-01', '2018-04-01', '2018-05-31'],
"WEIGHT_KG": [56, 58, 50, 54, 71, 72, 74, 75, 65]})
由CLIENT_ID
和排序ENCOUNTER_DATE
CLIENT_ID | ENCOUNTER_DATE | 重量_KG |
---|---|---|
8222 | 2020-01-01 | 56 |
8222 | 2020-03-02 | 58 |
8222 | 2020-04-18 | 50 |
8222 | 2020-07-31 | 54 |
8300 | 2017-06-10 | 71 |
8300 | 2017-09-11 | 72 |
8300 | 2018-02-01 | 74 |
8300 | 2018-04-01 | 75 |
8300 | 2018-05-31 | 65 |
我想创建一个WEIGHT_LOSS
标志列,如果电流WEIGHT_KG
至少比前一个测量值低 10%,则为 1,如果不是,则为 0,每个CLIENT_ID
结果如下表:
CLIENT_ID | ENCOUNTER_DATE | 重量_KG | 重量损失 |
---|---|---|---|
8222 | 2020-01-01 | 56 | 0 |
8222 | 2020-03-02 | 58 | 0 |
8222 | 2020-04-18 | 50 | 1 |
8222 | 2020-07-31 | 54 | 0 |
8300 | 2017-06-10 | 71 | 0 |
8300 | 2017-09-11 | 72 | 0 |
8300 | 2018-02-01 | 74 | 0 |
8300 | 2018-04-01 | 75 | 0 |
8300 | 2018-05-31 | 65 | 1 |
使用df.assign
,np.where
或列表理解可能很容易回答。
解决方案
您可以groupby
客户端并pct_change
在“WEIGHT_KG”列上使用:
df['WEIGHT_LOSS'] = (df.groupby('CLIENT_ID')
['WEIGHT_KG']
.pct_change() # calculate percent change
.lt(-0.1) # loss if lower than -0.1 (-10%)
.astype(int) # convert True/False to 1/0
)
输出:
CLIENT_ID ENCOUNTER_DATE WEIGHT_KG WEIGHT_LOSS
0 8222 2020-01-01 56 0
1 8222 2020-03-02 58 0
2 8222 2020-04-18 50 1
3 8222 2020-07-31 54 0
4 8300 2017-06-10 71 0
5 8300 2017-09-11 72 0
6 8300 2018-02-01 74 0
7 8300 2018-04-01 75 0
8 8300 2018-05-31 65 1
推荐阅读
- maven - 寻找标准 pom.xml 格式以仅执行 TEST 目标为“mvn surefire:test”而不依赖目标“清理,编译”
- c# - 尝试了 multilpe 变体,但计时器不会开始计时。问题出在哪里?
- android - 可以在 Google Home 上创建活动日志文件吗?
- java - Struts2 - HTTP 状态 404 - /struts2Test/testAction.action
- c# - 如何在框架传递测试上下文中只使用一次类初始化和类清理
- java - SpringBoot @interface 总结不同的注解
- c# - 我可以为 Azure Functions 绑定表达式配置默认值吗?
- html - 单击移动设备时不显示悬停文本
- linux - 跟踪系统上的 mount(2) 和 unmount(2) 调用者
- csv - 如何在 Azure 数据工厂 (V2) 数据流中参数化源的分隔符?