首页 > 解决方案 > 以 Parquet 格式保存 PostgreSQL 数据

问题描述

我正在做一个需要从一个巨大的 PostgreSQL 数据库生成镶木地板文件的项目。数据大小可能很大(例如:10TB)。我对这个主题很陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。以下是我的问题:

  1. 我看到的唯一可行的解​​决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会非常慢。
  2. 是否可以生成 10 TB 的巨大 parquet 文件?还是创建多个镶木地板文件更好?

希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!

标签: postgresqlapache-sparkparquet

解决方案


对此卷使用ORC格式而不是 parquet 格式。我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。


推荐阅读