python - 如何在数据框中合并同一对象的数据?
问题描述
我们知道毛毛虫有可能变成蝴蝶,蝌蚪变成青蛙。权重数据对不同类型的同名是专有的(同一列中至少有一个等于0)。如何组合与新数据框同名的数据(如果存在,则仅保存最新类型),如下所示。
old_df = {'name': ['a', 'b', 'b', 'c', 'd', 'd', 'e'],
'type': ['tiger', 'caterpillar', 'butterfly', 'dolphin', 'tadpole', 'frog', 'dog'],
'month1_weight': ['33', '0', '0', '59', '3', '0', '0'],
'month2_weight': ['0', '0', '20', '65', '0', '10', '2'],
}
old_dataframe = pd.DataFrame(old_df)
old dataframe:
name type month1_weight month2_weight
a tiger 33 0
b caterpillar 0 0
b butterfly 0 20
c dolphin 59 65
d tadpole 3 0
d frog 0 10
e dog 0 2
new dataframe:
name type month1_weight month2_weight
a tiger 33 0
b butterfly 0 20
c dolphin 59 65
d frog 3 10
e dog 0 2
解决方案
利用:
new_dataframe = (
old_dataframe.groupby("name")
.agg({
"type": "last",
"month1_weight": lambda s: s.astype(int).sum().astype(str),
"month2_weight": lambda s: s.astype(int).sum().astype(str)})
.reset_index()
)
print(new_dataframe)
这打印:
name type month1_weight month2_weight
0 a tiger 33 0
1 b butterfly 0 20
2 c dolphin 59 65
3 d frog 3 10
4 e dog 0 2
推荐阅读
- android - 如何发布 DPC 应用程序?
- node.js - 无法通过 Docker 连接到 Cloud SQL 代理 - 错误:连接 ENOENT
- postgresql - Postgres - 选择日期列值在另一行值范围内的所有行?
- pyspark - Azure 数据块中的自定义 Spark 日志位置配置
- python - 从 Python 代码调用 pytest 时可以共享全局变量吗
- python - 在给定列表中找到第二大的数字[重复]
- python - 如何在ubuntu上更改jupyter笔记本“下载为”路径
- python - 在python中将字节数组写入文件时出错
- excel - 根据条件返回列中的值使用 Ifs 或 Hlookup、Vlookup
- r - 使用 ldatuning 包时,Mac 上的 R 出现致命错误