amazon-web-services - 将 Google Analytics 导入 Redshift
问题描述
我想弄清楚如何将 Google Analytics 数据导入 AWS Redshift。到目前为止,我已经能够设置导出作业,以便将数据发送到 Google 的 BigQuery,然后将表导出到 Google 的 Cloud Storage。
BigQuery 以特定方式存储数据,因此当您将其导出到文件时,它会为您提供多级嵌套 JSON 结构。因此,为了将其导入 Redshift,我必须将该 JSON “分解”为表或 CSV 文件。
我一直无法找到一个简单的解决方案来做到这一点。
有谁知道我如何以一种优雅而有效的方式做到这一点,而不必编写一个将遍历整个 JSON 对象的长函数?
这是 Google 关于如何导出数据的文档https://cloud.google.com/bigquery/docs/exporting-data
解决方案
您可以尝试以下方法:
- 将您的 BigQuery 数据以 json 格式导出到 S3 存储桶中
- 根据规范创建JSONPaths 文件
- 在COPY 命令中包含 JSONPaths 文件以导入 Redshift
您也可以尝试将 BigQuery 表导出为AVRO(BigQuery 中支持的导出文件格式之一)而不是 json。此链接有一个示例,说明如何为嵌套的 AVRO 对象编写 JSONPaths 文件。
推荐阅读
- python - 有没有办法改变布局中按钮的方向?
- php - Stripe 检索 PaymentIntents API。如何处理输出?
- node.js - 根据用户的来源动态将用户重定向到特定页面
- vim - 在 Vim 中使用鼠标滚轮滚动光标
- c++ - 计数字符以达到空字符
- c++ - 使用 OpenGL 无法正确显示像素图 - 只能看到一些像素
- python - 使用 torch.eq(object, clone of that object) 时遇到错误“具有多个值的张量的布尔值不明确”
- svg - 查询时影子根 SVG 元素为空,但存在于 childNodes 和元素树中
- javascript - 如何在javascript(ReactJS)中处理iframe父级的点击事件
- java - Criteria Builder 和 Jquery DataTables - 自定义查询