amazon-web-services - 将 SQL 数据库转换/压缩为 RedShift 的 parquet 格式
问题描述
我在 AWS 上的 s3 存储桶中有 3 个 SQL 数据库,我想上传到 redshift。我了解到,将它们转换为像 parquet 这样的大数据格式会好得多,因为在 redshift 上进行查询会花费金钱,而且这些格式的性能总体上会更好。如何将我的数据库转换为这些格式?请询问可能需要的任何进一步信息。谢谢
解决方案
Amazon Redshift有自己的内部格式。一旦数据加载到 Redshift 中,它就在“数据库中”,因此您无需担心格式。
如果您只是偶尔进行查询,则可以改用Amazon Athena。Athena 允许您针对存储在 Amazon S3 中的数据编写 SQL 语句,而无需“加载”数据。基本上,Athena 会处理数据,而不是处理数据库的数据。
使用 Athena 时,您需要为从磁盘读取的数据量付费。因此,查询可以以较低的成本运行数据被压缩。如果数据以列格式(例如 Parquet、ORC)存储,查询也可以运行得更快、成本更低,因为 Athena 可以直接跳转到相关数据,而不必从磁盘中全部读取。
相比之下,Amazon Redshift 根据您运行的集群的大小收费。运行实际查询没有额外成本。
有关优化 Amazon Athena 使用的更多信息,请参阅:使用 Amazon Athena 分析 S3 中的数据 | AWS 大数据博客
推荐阅读
- data-science - 这是过拟合吗
- tensorflow - keras,使用 RNN 模型的 MNIST 分类,关于输出形状的问题
- angularjs - 基于焦点的angularjs格式字段
- css - 当早期字体已经具有该字符时,为什么 Chrome 会为 UTF-8 字形字符使用低阶字体?
- sql - 如果它们与父表具有相同的ID,如何获取所有子表数据
- ios - 从 UITableView 中删除行会导致部分标题问题?
- python - 使用 numpy 将数据从一个通道交换到另一个通道
- python - ezdxf 如何提取与块布局中的文本关联的标签
- sql-server - ADO.NET 查询未显示在 XEvents 中
- javascript - 如何防止 Google App Maker 应用超时