首页 > 解决方案 > 并非所有重复项都被删除

问题描述

我有一个句子列表(+200,000),其中某些句子重复了几次。但是,我只想要一个独特句子的列表。我尝试了两种不同的代码,虽然删除了一些重复的代码,但我仍然注意到数据集中仍保留了一些重复的代码。知道为什么我的代码没有完全起作用以及我能做些什么来改变它吗?提前致谢!

我尝试过的代码如下; unique = list(set(all_data))

for line in all_data:
 if line not in unique:
  unique.append(line)



标签: pythonnlppreprocessor

解决方案


你可以使用 numpy:

import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array

现在newlist将是

['Hey','Heyy']

推荐阅读