首页 > 解决方案 > 从 docker 容器在 dataproc 中运行 pyspark 数据帧

问题描述

1-我创建了一个使用 docker 作为初始化操作的 dataproc 集群

gs://dataproc-initialization-actions/docker/docker.sh

根据:https ://github.com/GoogleCloudDataproc/initialization-actions/tree/master/docker docker 应该在主节点和工作节点中配置

2-我在主服务器中有 SSH,安装了 docker-compose 并在那里克隆了我的应用程序。我的应用程序是一个烧瓶(python)服务器,它根据 API 请求处理一些数据并发回响应。

由于我的逻辑在 docker 容器内,我想从容器内调用 dataproc 主控器。 我已经在我的容器中安装了 pyspark,但我不确定如何从我的 docker 容器中运行 pyspark 代码,这些代码可以由主机上的 dataproc master + workers 执行?

标签: dockerapache-sparkhadooppysparkdataproc

解决方案


推荐阅读