问题描述

我正在寻找与 AWS Athena 合作的大型工作。我有大约 650 个 100mb - 1.5GB CSV 文件。我的目标是将这些合并到更少的 Gzipped CSV 文件到另一个文件中。

我使用 AWS Athena 在这些数据上创建了一个表。是否有可能运行这样的工作？现有格式只是标准 CSV（3 列）

表尝试

CREATE TABLE NODES_GZIPPED_NODESTEST2
WITH (
      external_location = 's3://mybucket',
      format = 'TEXTFILE',
      bucketed_by=ARRAY['accessedtime'],
      bucket_count = 20
 )

AS SELECT *
FROM NodeRun2CSV3
LIMIT 50000

在这种情况下，输出文件中缺少逗号。我怎样才能确保而不是：

data1data2 我会得到data1，data2吗？

标签： amazon-web-servicesamazon-s3amazon-athena

amazon-web-services - 通过 Athena 将 AWS S3 中的 CSV 合并到更大的 GZIP 文件中

问题描述

表尝试

解决方案

推荐阅读