python - 并非所有重复项都被删除
问题描述
我有一个句子列表(+200,000),其中某些句子重复了几次。但是,我只想要一个独特句子的列表。我尝试了两种不同的代码,虽然删除了一些重复的代码,但我仍然注意到数据集中仍保留了一些重复的代码。知道为什么我的代码没有完全起作用以及我能做些什么来改变它吗?提前致谢!
我尝试过的代码如下;
unique = list(set(all_data))
和
for line in all_data:
if line not in unique:
unique.append(line)
解决方案
你可以使用 numpy:
import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array
现在newlist
将是
['Hey','Heyy']
推荐阅读
- raspberry-pi - raspian Buster 无法连接到 eduroam wpa_supplicant v.2.8
- javascript - 无法在编辑器中显示图像
- mysql - ReferenceError:连接未定义nodejs mysql
- spring - 如何禁用弹簧启动执行器弹性搜索健康请求?
- symfony - 当我尝试创建新的时,php bin/console make:crud 中有错误
- python - 如何使用 python 在 Windows 10 中进行并行处理
- python - 根据条件语句在熊猫数据框中生成新列
- bash - 如何使用 cat 命令从顶部读取文件?
- javascript - 如何将 JQuery 代码转换为 JavaScript?
- python - 在 Python 中以 1 到 3 范围内的随机重复间隔生成 2 个变量的列表