首页 > 解决方案 > 如何在python中删除重复的“id”列值

问题描述

我有几个数据框,我想合并到一个大数据框来构建分类器。

这是基本数据框 user_df_copy

在此数据框中,有 id 列指示客户端 ID。我有像这样的其他数据框,其中包含与 user_id 列相关的列。

因此,目标是将这些小数据帧合并到 user_df_copy 中,添加诸如 subject_id 之类的列,并且仅当 user_id 与主 df id 匹配时才具有值,否则为 NaN。问题是,在这些小数据帧中,id 出现重复。

我还像这样将 get_dummies 应用于 subject_id 列

标签: python-3.xpandasdataframe

解决方案


If you want to just drop duplicate rows in the smaller DataFrames you can use:

df.drop_duplicates(subset="id")


推荐阅读