sql - 用“in”删除重复记录
问题描述
我有一张这样的桌子:
CREATE TABLE foo (
id SERIAL,
a INTEGER,
b INTEGER,
some DOUBLE,
other VARCHAR,
data INTEGER
);
而且我知道这(a, b)
必须是唯一的,但由于某些原因,这不是由数据库强制执行的。假设我不关心进一步的歧视,我只是不时擦除重复项,也许只保留最近的一个(ID最大的):
DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a, b);
现在假设有几个 100.000 条记录,它IN (...)
变得非常大。
我读到了关于自连接的信息(比如:)DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id
,但这也意味着如果我有很多重复项,我会得到巨大的中间表。
我有什么选择?
解决方案
如果要删除较旧的重复值,可以使用:
delete from foo
where foo.id < (select max(foo2.id)
from foo foo2
where foo2.a = foo.a and foo2.b = foo.b
);
请注意,索引(a, b, id)
将有助于提高性能。
您也可以将其表述为连接:
delete from foo
using (select a, b, max(id) as max_id
from foo
group by a, b
) ab
where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;
推荐阅读
- r - 使用 dplyr 汇总自定义函数以进行许多独特的测量
- python - TensorFlow 与 mnist 一起服务 - 具有自己图像的 python 客户端
- java - Http 客户端 POST 上传文件 - MultipartException:当前请求不是多部分请求
- spring - JPA左连接不起作用?
- mysql - 语法错误或访问冲突:1055 'database.order.oid' 不在 GROUP BY 中
- haproxy - Apache Drill是否支持高可用性
- python-3.x - 如何使用python在列表中获取不带双引号的数值
- firefox - 使用 Firefox Quantum 检查 Websocket 帧
- android - 即使已经创建了视图,android文本宽度也会返回0
- sql - 管理选择以在后连接过滤器后搜索带孔的顺序十六进制数时出现 Sql 错误