python - 插入新数据时是否可以转储/复制 PostgreSQL 表?
问题描述
我已经建立了一个 PostgreSQL 数据库(版本 11.2),其中我有一个表,其中以半定期间隔(15-30 分钟)插入新条目。插入是使用带有 SQLAlchemy 的 python 脚本和带有df.to_sql()
命令的 Pandas 完成的。现有数据库非常大,复制/转储它很可能需要超过 30 分钟。
运行会CREATE TABLE new_table AS TABLE old_table;
中断数据插入过程吗?如果是,是否有另一种方法可以在不中断的情况下做到这一点?
该数据库在 Red Hat Enterprise 服务器 7.6 版上运行。我拥有整个数据库的管理员权限,并且可以使用 PuTTy + 访问它,psql -U username -d my_database
如果有影响的话,也可以从 pgAdmin 访问它。因为害怕打断收集过程,我还没有尝试过任何东西。
解决方案
Postgresql 中的事务是任何单一的、全有或全无的操作。事务被称为原子事务:从其他事务的角度来看,它要么完全发生,要么根本不发生。
COMMIT;
一个打开的事务到目前为止所做的更新对其他事务是不可见的,直到事务完成,因此所有更新同时变得可见。事务只有在使用命令提交后才变得真实(或对其他事务可见) 。
您的第一个插入命令可能只会锁定当前正在插入的那些行。这些行仅在插入事务已完成并提交后才可用。
要回答您的问题:
1) 将运行 CREATE TABLE new_table AS TABLE old_table; 中断数据插入过程?
一点都不。
2)如果是,是否有另一种方法可以在不中断的情况下做到这一点?
由第一个问题回答。
这里的场景是 create table 命令只会复制当前未被任何事务锁定的数据。因此,对于插入命令,这将(大部分)仅是当前插入的行。创建表将复制插入事务之前的所有数据。
您可以通过插入命令检查锁,如下所示:
select * from pg_stat_activity;
这将输出类似的东西。
-[ RECORD 2 ]----+--------------------------------
datid | 73103
datname | database
procpid | 28477
sess_id | 16424
usesysid | 10
usename | user
current_query | insert .....
waiting | f
query_start | 2019-05-20 06:10:21.126825+00
backend_start | 2019-05-20 05:43:51.600017+00
client_addr | 0.0.0.0
client_port |
application_name |
xact_start |
由此我们可以确定此过程创建的锁为:
select * from pg_locks where pid = 28477;
您可以在同一个表上更新、删除、插入许多事务,而不会相互阻塞——前提是每个事务处理不同的行。只有当第二个插入尝试插入与第一个相同的主键(或唯一键)值时,两个插入才会相互阻塞。如果您不希望任何锁影响您的查询,您可以使用 WITH NOLOCK 但请谨慎使用。
更多信息:
https ://www.postgresql.org/docs/9.1/explicit-locking.html
https://www.postgresql.org/docs/9.1/transaction-iso.html
推荐阅读
- javascript - 在 v9 中删除集合 firebase
- python - 硒不运行Javascript
- javascript - Javascript:坚持比较功能
- excel - VBA 更改日期格式
- javascript - 如何检测当前 html 页面上的数学运算符,以便我的代码可以分配正确的总和
- c++ - 在 C++ 中使用命名空间
- c++ - 令人惊讶的 c 风格演员表
- javascript - 如何根据 FullCalendar V5 上的选择值过滤事件?
- reactjs - 如何在表单中获取和显示字段性别的值(Reactjs)
- snowflake-cloud-data-platform - 将 SnowFlake 帐户定位器更改为帐户名称