首页 > 解决方案 > Pandas:从数据框中删除大量重复数字的重复项

问题描述

我正在尝试: 从这个-->到这个

输入

由此

输出

对此

我正在编辑它以尝试更好地解释。我有一个包含两列的数据框(我们称它们为 A 和 B)。B 列有一个从 0 到 8 的数字,通常会在数据帧的每个条目中连续重复。例如 0, 0, 0, 2, 2, 2, 8, 8, 6, 6。在此示例中,我想删除大部分行,以便 B 列仅读取 0、2、8、6。

我想我可以使用 drop_duplicates。但是,因为所有行都包含一个 0-8 的数字,所以它们都是重复的,所以所有行都被删除了。我希望这次我解释得更好。

标签: pythonpandasdataframeduplicates

解决方案


尝试这个:

df = df[df[1]!=df.shift(-1)[1]]

这将保留第二列中的值与前一行中的值不同的所有行。或者换句话说,它将删除第二列中与前一行具有相同值的所有行


推荐阅读