首页 > 解决方案 > 插入新数据时是否可以转储/复制 PostgreSQL 表?

问题描述

我已经建立了一个 PostgreSQL 数据库(版本 11.2),其中我有一个表,其中以半定期间隔(15-30 分钟)插入新条目。插入是使用带有 SQLAlchemy 的 python 脚本和带有df.to_sql()命令的 Pandas 完成的。现有数据库非常大,复制/转储它很可能需要超过 30 分钟。

运行会CREATE TABLE new_table AS TABLE old_table;中断数据插入过程吗?如果是,是否有另一种方法可以在不中断的情况下做到这一点?

该数据库在 Red Hat Enterprise 服务器 7.6 版上运行。我拥有整个数据库的管理员权限,并且可以使用 PuTTy + 访问它,psql -U username -d my_database如果有影响的话,也可以从 pgAdmin 访问它。因为害怕打断收集过程,我还没有尝试过任何东西。

标签: pythonpandaspostgresqlsqlalchemypsycopg2

解决方案


Postgresql 中的事务是任何单一的、全有或全无的操作。事务被称为原子事务:从其他事务的角度来看,它要么完全发生,要么根本不发生。

COMMIT;一个打开的事务到目前为止所做的更新对其他事务是不可见的,直到事务完成,因此所有更新同时变得可见。事务只有在使用命令提交后才变得真实(或对其他事务可见) 。

您的第一个插入命令可能只会锁定当前正在插入的那些行。这些行仅在插入事务已完成并提交后才可用。

要回答您的问题:

1) 将运行 CREATE TABLE new_table AS TABLE old_table; 中断数据插入过程?

一点都不。

2)如果是,是否有另一种方法可以在不中断的情况下做到这一点?

由第一个问题回答。

这里的场景是 create table 命令只会复制当前未被任何事务锁定的数据。因此,对于插入命令,这将(大部分)仅是当前插入的行。创建表将复制插入事务之前的所有数据。

您可以通过插入命令检查锁,如下所示:

select * from pg_stat_activity;

这将输出类似的东西。

-[ RECORD 2 ]----+--------------------------------
datid            | 73103
datname          | database
procpid          | 28477
sess_id          | 16424
usesysid         | 10
usename          | user
current_query    | insert .....
waiting          | f
query_start      | 2019-05-20 06:10:21.126825+00
backend_start    | 2019-05-20 05:43:51.600017+00
client_addr      | 0.0.0.0
client_port      | 
application_name | 
xact_start       | 

由此我们可以确定此过程创建的锁为:

select * from pg_locks where pid = 28477;

您可以在同一个表上更新、删除、插入许多事务,而不会相互阻塞——前提是每个事务处理不同的行。只有当第二个插入尝试插入与第一个相同的主键(或唯一键)值时,两个插入才会相互阻塞。如果您不希望任何锁影响您的查询,您可以使用 WITH NOLOCK 但请谨慎使用。

更多信息:
https ://www.postgresql.org/docs/9.1/explicit-locking.html
https://www.postgresql.org/docs/9.1/transaction-iso.html


推荐阅读