python - 将 JSON 数据从 Google Analytics 保存到关系数据库的最佳方法
问题描述
我正在寻找将 Google Analytics 数据(以具有嵌套对象结构的 JSON 文件表示)并行加载到关系数据库中的最有效方法,以便稍后收集和分析此统计信息。
我发现 pandas.io.json.json_normalize 可以将嵌套数据扁平化为扁平结构,还有一个 pyspark 解决方案,可以将 json 转换为数据帧,如此处所述,但不确定性能问题。
您能否描述将数据从 Google Analytics API 加载到 RDBMS 的最佳方式?
解决方案
我认为当我们对您想要使用哪些数据以及如何使用它们有更多的了解时,这个答案可以得到最好的回答。例如,如果您只使用所有可用字段中的一小部分 - 那么只存储这些字段是有意义的,或者如果您将使用某些特定字段作为索引,那么也许我们也可以索引该字段。
我能从头顶回想起的一件事是JSON type of Postgres
,因为它是内置的,并且有几个辅助方法可以在以后进行操作。
参考 :
- https://www.postgresql.org/docs/9.3/datatype-json.html
- https://www.postgresql.org/docs/9.3/functions-json.html
如果您可以在此处更新您做出的决定 - 很高兴知道。
推荐阅读
- python - keras lstm 输入形状不正确
- neo4j - 如何正确使用 apoc.periodic.iterate 来减少大型事务的堆使用量?
- python - 在两个字典中按索引对多个值求和
- python - 从一个图中的嵌套列表创建多个箱线图
- html - Vue:html高度不正确
- bootstrap-4 - IE 11 中的 Blazor(服务器端)侧边栏兼容性问题
- python - 在python中使用字母顺序和整数对列表进行排序
- python - 将整个包添加到 Pyinstaller 可执行文件中
- java - 为 Cucumber Selenium 项目创建可执行 jar 文件
- html - 当我尝试在 Angular 7 的屏幕上执行任何操作时,HTML 表单被挂起/冻结