首页 > 解决方案 > 使用免费的 Google Cloud 积分创建 Dataproc 集群失败

问题描述

我正在使用 Google Cloud 的免费积分。我遵循了 Dataproc 教程,但是当我运行以下命令时,我遇到了关于存储容量的错误。

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --worker-machine-type=n1-standard-4 \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

你知道如何解决这个问题吗?我改为n1-standard-4n1-standard-1我无法修复它。但是,当我删除--image-version=1.5该命令时。它会给程序的其余部分带来任何问题吗?

当我单击 JupyterLab 链接时,也从 Web 界面中,我无法在我的 Dataproc 集群上可用的内核中看到 Python 3 图标。我只有 Python 2,它一直说与服务器的连接消失了。

这是 JupyterLab 错误的图片:1

标签: apache-sparkgoogle-cloud-platformjupyter-notebookgoogle-cloud-dataproc

解决方案


您看到有关存储容量的错误,因为在 1.5 映像版本中,Dataproc 使用更大的 1000 GiB 磁盘用于主节点和工作节点以提高性能。您可以使用--master-boot-disk-size=100GB--worker-boot-disk-size=100GB命令标志来减小磁盘大小:

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --master-boot-disk-size=100GB \
  --worker-machine-type=n1-standard-4 \
  --worker-boot-disk-size=100GB \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

当您删除--image-version=1.5标志时,此命令使用默认不支持 Python 3 的默认 1.3 映像版本,这就是您在 JupyterLab 中看不到 Python 3 内核的原因。


推荐阅读