首页 > 解决方案 > numpy 数组的 drop_duplicates 等效项

问题描述

类似于: 删除 NumPy 数组中具有重复项的行

但我的数组看起来有点不同(不仅仅是整数,也没有逗号)。

shape (131488, 6)
[['1615818692' '217' '30.78' '51402' '60.048' 'ABC']
 ['1615818922' '217' '30.83' '53095' '60.048' 'DEFG']
...
 ['1615823573' '183260' '217' '30.63' '60.048' 'HIJK']]

当尝试链接页面上的方法时,我得到的只是看起来像原始数组的东西,但条目少了 3 个。

但是,当我转换为 pandas DF 并使用drop_duplicates()时,我得到了大约 6 万个条目,这是我所期望的。我没有使用这种方法,因为它在 1.7 秒时太慢了。我也尝试过迭代并进行比较,但这太慢了。我尝试使用setandlistuniquewith .anyand.all但要么遇到错误dtype(可能是由于字符串?)或不正确的轴。

基本上我想比较每一行(由[and包含])并删除相同的行。

提前致谢!

标签: arrayspython-3.xnumpyduplicates

解决方案


推荐阅读