python - Pandas - 连接被截断的行
问题描述
我在网上找到了一个数据库,其中包含一系列匿名用户的学位以及他们完成学位的逆序(最后一个学位在前)。对于每个用户,我有:
- 他们的用户 ID
- 逆序
- 学位名称
基本上我的数据框看起来像这样:
用户身份 | 序列 | 程度 |
---|---|---|
123 | 1 | 民事硕士 |
123 | 1 | 工程 |
123 | 2 | 工程学士 |
如您所见,我的问题是有时学位标题被截断并分成两行(用户 123 拥有土木工程理学硕士学位 - 请注意顺序相同的值)。
理想情况下,我的数据框应如下所示:
用户身份 | 序列 | 程度 |
---|---|---|
123 | 1 | 土木工程硕士 |
123 | 2 | 工程学士 |
我想知道是否有人可以帮助我。我很乐意提供更多可能需要帮助的见解。
提前致谢!
解决方案
df.groupby(['User_ID', 'Sequence'], as_index=False).aggregate(' '.join)
User_ID Sequence Degree
0 123 1 MSc in Civil Engineering
1 123 2 BSc in Engineering
完整的工作示例:
import pandas as pd
df = pd.DataFrame({
'User_ID': [123, 123, 123],
'Sequence': [1, 1, 2],
'Degree': ['MSc in Civil', 'Engineering', 'BSc in Engineering']
})
df = df.groupby(['User_ID', 'Sequence'], as_index=False).aggregate(' '.join)
print(df)
推荐阅读
- laravel - 如何在路由中获取带有 $request 变量的 post 值
- python - 将 Makefile/Bash 列表转换为 Python 列表
- printing - 页面打印输出 Word VBS
- javascript - 有没有办法按名称获取频道?(Discord.js v12)
- css - fullcalendar v5.3 不完整边框
- apache-calcite - 没有足够的规则来生成具有所需属性的节点
- php - 循环遍历一个序列并返回模数
- geopandas - geopandas 在现有图形上绘制多边形
- r - R: 从 docx 成功创建表格提取功能,但无法连接到文件夹
- r - 在维护数据结构的同时使用`group_split`?