apache-spark - 关于 Spark sql 表和数据库的问题
问题描述
我是 Spark 的新手,对以下几点感到困惑:
当我们为自己的分析(使用数据框 API 或 spark sql)创建新的数据库和全局表时,这些是在哪里创建/存储的?这些是存储在 Spark 内存中还是存储在 Spark 读取数据的外部存储(可能是 Hive/HDFS/RDBMS..etc)中?临时视图/本地表是否仅在 Spark 内存中创建?
谢谢!
解决方案
当我们为自己的分析(使用数据框 API 或 spark sql)创建新的数据库和全局表时,这些是在哪里创建/存储的?
这取决于您的基础设施。例如:
- 如果您在本地环境中,则基础数据位于 HDFS 上
- 如果你在 Azure Databricks 中,则基础数据位于 Azure 数据存储中
- 如果您在 Databricks Cloud 中,则基础数据在 Amazon S3 上
这些是存储在 Spark 内存中还是存储在 Spark 读取数据的外部存储(可能是 Hive/HDFS/RDBMS..etc)中?
此数据仅在您调用时加载到内存中df.cache()
临时视图/本地表是否仅在 Spark 内存中创建?
是的
推荐阅读
- python-3.x - 为什么 Qt 中的字体看起来模糊或像素化?
- javascript - 可读流得到一个 blob
- machine-learning - 逻辑回归可以用于包含列表的变量吗?
- c++ - “断言(this)”是一种可行的模式吗?
- gcc - 什么是 __XSI_VISIBLE?
- python - FileNotFoundError 但文件在目录中
- firebase - 错误:3 INVALID_ARGUMENT:位置必须等于 europe-west1,因为与此项目关联的 App Engine 应用位于 europe-west1
- c++ - 在 CLion 中设置 OpenMP 项目 MacOS Mojave
- powershell - 运行 .exe 以获取字符串输出不会保存到字符串变量
- python - 列表中元素的索引