首页 > 解决方案 > 如何使用 pandas 对 Excel 文件中的数据进行排序。并对重复项进行排序

问题描述

我正在尝试使用熊猫过滤数据。

df_c = pd.read_csv (r'C:\Users\User\Documents\Research\output-mutations.csv')
df_c.drop_duplicates(subset = ["FILENAME", "CHAIN", "MUTATION_CODE"],
                     keep = False, inplace = True)
df_c.to_csv (r'C:\Users\User\Documents\Research\output-mutations-concise.csv')```

现在,这就是我所拥有的。我正在尝试删除我的一个列中的重复项,并在我的最后一列中打印所有匹配项。我有一个我想做的例子,但我不知道从哪里开始以及与 panda 一起使用什么命令。我尝试了 .drop 命令。

例子

标签: pythonpandas

解决方案


您可以使用groupbyandapply代替drop.

df = df.groupby(by=[ "FILENAME", "CHAIN"],as_index=False).apply(lambda x: ";".join(x["MUTATION_CODE"]))
df.columns = ["FILENAME", "CHAIN", "MUTATION_CODE"]
print(df)

推荐阅读