首页 > 解决方案 > 将 SQL 数据库转换/压缩为 RedShift 的 parquet 格式

问题描述

我在 AWS 上的 s3 存储桶中有 3 个 SQL 数据库,我想上传到 redshift。我了解到,将它们转换为像 parquet 这样的大数据格式会好得多,因为在 redshift 上进行查询会花费金钱,而且这些格式的性能总体上会更好。如何将我的数据库转换为这些格式?请询问可能需要的任何进一步信息。谢谢

标签: amazon-web-servicesamazon-redshift

解决方案


Amazon Redshift有自己的内部格式。一旦数据加载到 Redshift 中,它就在“数据库中”,因此您无需担心格式。

如果您只是偶尔进行查询,则可以改用Amazon Athena。Athena 允许您针对存储在 Amazon S3 中的数据编写 SQL 语句,而无需“加载”数据。基本上,Athena 会处理数据,而不是处理数据库的数据。

使用 Athena 时,您需要为从磁盘读取的数据量付费。因此,查询可以以较低的成本运行数据被压缩。如果数据以列格式(例如 Parquet、ORC)存储,查询也可以运行得更快、成本更低,因为 Athena 可以直接跳转到相关数据,而不必从磁盘中全部读取。

相比之下,Amazon Redshift 根据您运行的集群的大小收费。运行实际查询没有额外成本。

有关优化 Amazon Athena 使用的更多信息,请参阅:使用 Amazon Athena 分析 S3 中的数据 | AWS 大数据博客


推荐阅读