首页 > 解决方案 > 将 Google Analytics 导入 Redshift

问题描述

我想弄清楚如何将 Google Analytics 数据导入 AWS Redshift。到目前为止,我已经能够设置导出作业,以便将数据发送到 Google 的 BigQuery,然后将表导出到 Google 的 Cloud Storage。

BigQuery 以特定方式存储数据,因此当您将其导出到文件时,它会为您提供多级嵌套 JSON 结构。因此,为了将其导入 Redshift,我必须将该 JSON “分解”为表或 CSV 文件。

我一直无法找到一个简单的解决方案来做到这一点。

有谁知道我如何以一种优雅而有效的方式做到这一点,而不必编写一个将遍历整个 JSON 对象的长函数?

这是 Google 关于如何导出数据的文档https://cloud.google.com/bigquery/docs/exporting-data

标签: amazon-web-servicesdata-migration

解决方案


您可以尝试以下方法:

  1. 将您的 BigQuery 数据以 json 格式导出到 S3 存储桶中
  2. 根据规范创建JSONPaths 文件
  3. 在COPY 命令中包含 JSONPaths 文件以导入 Redshift

您也可以尝试将 BigQuery 表导出为AVRO(BigQuery 中支持的导出文件格式之一)而不是 json。此链接有一个示例,说明如何为嵌套的 AVRO 对象编写 JSONPaths 文件。


推荐阅读