首页 > 解决方案 > 计数值,使用 Pandas 保留重复项

问题描述

我有这个 ID 数据集,位于 GUID 的 A 列(250,000 个值)。我需要计算该列中每个 GUID 出现的次数,然后将其作为数据集中的另一列包含在内。问题是使用带有熊猫的 .value_counts() 给了我一个列表,但删除了重复项。由于我想将新计数数据集与旧数据集对齐,因此列表不对齐。

import os
import pandas as pd

path = (r"D:\\Users\\cdoyle\Desktop\\Final2_.xlsx")
df = pd.read_excel(path)
df = df[['Data BoundingBoxGUID', 'Data Line', 'Data Remove Item:', 'Data Status:', 'Model']]
df2 = df['Data BoundingBoxGUID'].value_counts()


df_output = pd.concat([df,df2], axis=1)

标签: pythonpandas

解决方案


我们通常做transform

df['new'] = df.groupby('Data BoundingBoxGUID')['Data BoundingBoxGUID'].transform('count')

推荐阅读