首页 > 解决方案 > 使用多个初始化脚本时 Dataproc 初始化脚本错误 pip command not found 错误

问题描述

以下是我用来创建 dataproc 集群的命令。这里有两个初始化脚本。(1) jupyter.sh(2)my_initialize.sh

gcloud dataproc clusters create dproc \
    --subnet default --zone us-west1-a --project myproject \
    --initialization-actions gs://dataproc-initialization-actions/jupyter/jupyter.sh,gs://mydataproc/my_initialize.sh \
    --master-machine-type n1-standard-8 --master-boot-disk-size 40 \
    --worker-machine-type n1-standard-8 --worker-boot-disk-size 40 --num-workers 4

以下是在 my_initialize.sh

#!/usr/bin/env bash
pip install --upgrade google-cloud-bigquery

当我们安装 jupyter.sh 时,我相信 pip 已经安装了。

由于某种原因,集群创建失败,错误为第 2 行:找不到 pip 命令。

标签: google-cloud-dataproc

解决方案


我相信这是一个问题,即 init 操作没有看到以前的 init 操作对环境的更改。我们将在接下来的几周内推出解决方案,因此profile.d之后不再需要采购。这将在发行说明中公布。

同时(正如@Karthik Palaniappan 提到的,只需按完整路径使用 pip /opt/conda/bin/pip

最后,在 Dataproc1.3映像上,您可以使用 Anaconda+Jupyter Optional Components。在初始化操作上使用组件将减少整个集群启动时间。


推荐阅读