google-cloud-dataproc - 使用多个初始化脚本时 Dataproc 初始化脚本错误 pip command not found 错误
问题描述
以下是我用来创建 dataproc 集群的命令。这里有两个初始化脚本。(1) jupyter.sh
(2)my_initialize.sh
gcloud dataproc clusters create dproc \
--subnet default --zone us-west1-a --project myproject \
--initialization-actions gs://dataproc-initialization-actions/jupyter/jupyter.sh,gs://mydataproc/my_initialize.sh \
--master-machine-type n1-standard-8 --master-boot-disk-size 40 \
--worker-machine-type n1-standard-8 --worker-boot-disk-size 40 --num-workers 4
以下是在 my_initialize.sh
#!/usr/bin/env bash
pip install --upgrade google-cloud-bigquery
当我们安装 jupyter.sh 时,我相信 pip 已经安装了。
由于某种原因,集群创建失败,错误为第 2 行:找不到 pip 命令。
解决方案
我相信这是一个问题,即 init 操作没有看到以前的 init 操作对环境的更改。我们将在接下来的几周内推出解决方案,因此profile.d
之后不再需要采购。这将在发行说明中公布。
同时(正如@Karthik Palaniappan 提到的,只需按完整路径使用 pip /opt/conda/bin/pip
。
最后,在 Dataproc1.3
映像上,您可以使用 Anaconda+Jupyter Optional Components。在初始化操作上使用组件将减少整个集群启动时间。
推荐阅读
- android - Android O:在设备锁定时拍照
- laravel-5 - 如何从包发现中禁用提供程序?
- caliburn.micro - Caliburn.Micro + MaterialToolkitDialog 未打开 .. : (
- excel - 查找功能跳过下一行
- api - 如何将值传递给 DataAccess 层以存储到 asp.net MVC5 API 中的数据库中?
- vim - 覆盖vim中的python文件类型检测
- eclipse - 我可以更改特定代码部分的 eclipse 格式化程序线宽吗?
- c# - 为什么这个任务会导致死锁?
- java - StringStartsWithKeyMap
在 Java 中?(如果 key 开始与 entry.key 匹配) - javascript - 从 Node 内部访问 Mongo DB