首页 > 解决方案 > 通过 Athena 将 AWS S3 中的 CSV 合并到更大的 GZIP 文件中

问题描述

我正在寻找与 AWS Athena 合作的大型工作。我有大约 650 个 100mb - 1.5GB CSV 文件。我的目标是将这些合并到更少的 Gzipped CSV 文件到另一个文件中。

我使用 AWS Athena 在这些数据上创建了一个表。是否有可能运行这样的工作?现有格式只是标准 CSV(3 列)

表尝试

CREATE TABLE NODES_GZIPPED_NODESTEST2
WITH (
      external_location = 's3://mybucket',
      format = 'TEXTFILE',
      bucketed_by=ARRAY['accessedtime'],
      bucket_count = 20
 )

AS SELECT *
FROM NodeRun2CSV3
LIMIT 50000

在这种情况下,输出文件中缺少逗号。我怎样才能确保而不是:

data1data2 我会得到data1,data2吗?

标签: amazon-web-servicesamazon-s3amazon-athena

解决方案


推荐阅读