apache-spark - 如何在 jupyterhub 上为每个用户隔离 spark 会话?
问题描述
我有一个连接到我的 JupyterHub 安装的 AD 插件,以便用户将通过 AD 连接器在 JupyterHub 上进行身份验证。
问题是,如果不同的用户通过 JupyterHub 上的 Jupyter Notebook 将他们的 Spark 作业提交到共享的底层 Spark 引擎,是否有一种方法可以让每个用户拥有自己的独立 Spark 会话而不是共享会话?
首先十分感谢!
解决方案
通过使用这种部署模式:
- 用户将连接到绑定到 AD的共享JupyterHub
- 如果他们通过身份验证,将生成一个新的Jupyter Notebook(服务器)
- 然后在他们的 Jupyter Notebook 中,他们将根据您的部署在本地或集群模式下使用Spark 。在这两种情况下,驱动程序都专用于它们的使用(不共享)。
在这个典型的部署中,除了 Spark 集群(如果有的话)之外,没有任何东西是共享的。每个用户将能够获得和管理一个新的SparkSession
.
推荐阅读
- sql - 使用 Big Query ML 进行回归
- kdb - KDB:并行插入表
- c++ - 将函数转换为 void 是否是“旧式转换”?
- php - 这在 Laravel 5.7(验证者合约)中意味着什么
- qt - Qt 在命令行中使用“mingw32-make”并出现 .exe 文件生成错误
- javascript - Aurelia 中的导航附加“?id=5”而不是“/5”
- java - 如何从 JPA 持久性单元中排除或包含包
- javascript - 正则表达式没有转义特殊字符
- python - 分配给以 *varname 结尾的以逗号分隔的变量列表如何工作?
- java - 从 Java 以编程方式访问 @JsonProperty