首页 > 解决方案 > 关于 Spark sql 表和数据库的问题

问题描述

我是 Spark 的新手,对以下几点感到困惑:

当我们为自己的分析(使用数据框 API 或 spark sql)创建新的数据库和全局表时,这些是在哪里创建/存储的?这些是存储在 Spark 内存中还是存储在 Spark 读取数据的外部存储(可能是 Hive/HDFS/RDBMS..etc)中?临时视图/本地表是否仅在 Spark 内存中创建?

谢谢!

标签: apache-sparkpysparkapache-spark-sql

解决方案


当我们为自己的分析(使用数据框 API 或 spark sql)创建新的数据库和全局表时,这些是在哪里创建/存储的?

这取决于您的基础设施。例如:

  • 如果您在本地环境中,则基础数据位于 HDFS 上
  • 如果你在 Azure Databricks 中,则基础数据位于 Azure 数据存储中
  • 如果您在 Databricks Cloud 中,则基础数据在 Amazon S3 上

这些是存储在 Spark 内存中还是存储在 Spark 读取数据的外部存储(可能是 Hive/HDFS/RDBMS..etc)中?

此数据仅在您调用时加载到内存中df.cache()

临时视图/本地表是否仅在 Spark 内存中创建?

是的


推荐阅读