postgresql - 以 Parquet 格式保存 PostgreSQL 数据
问题描述
我正在做一个需要从一个巨大的 PostgreSQL 数据库生成镶木地板文件的项目。数据大小可能很大(例如:10TB)。我对这个主题很陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。以下是我的问题:
- 我看到的唯一可行的解决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会非常慢。
- 是否可以生成 10 TB 的巨大 parquet 文件?还是创建多个镶木地板文件更好?
希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!
解决方案
对此卷使用ORC格式而不是 parquet 格式。我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。
推荐阅读
- python - 创建字典并使用相应的键聚合值
- azure - Azure 逻辑应用:在 Blob 中创建 CSV 文件
- ssl-certificate - Atlassian Bitbucket (Stash) SSL 证书续订
- selenium - 一个类中提到的 TestNg 注释是如何从另一个类的另一个类中执行的?
- python - 如何解释 tensorflow 中 tf.rank 的输出
- jquery - 找到最大数量的 tr
- javascript - 如何将丢失的对象添加到数组中?
- c# - Process.Start() 的可靠性然后使用 C# 关闭当前进程
- html-table - 如何将 HTML 表格转换为 PDF 并与 CSS 一起保存为 PDF - 客户端?
- html - 如何在html中禁用用户名的自动填充?