apache-spark - 使用免费的 Google Cloud 积分创建 Dataproc 集群失败
问题描述
我正在使用 Google Cloud 的免费积分。我遵循了 Dataproc 教程,但是当我运行以下命令时,我遇到了关于存储容量的错误。
gcloud beta dataproc clusters create ${CLUSTER_NAME} \
--region=${REGION} \
--zone=${ZONE} \
--image-version=1.5 \
--master-machine-type=n1-standard-4 \
--worker-machine-type=n1-standard-4 \
--bucket=${BUCKET_NAME} \
--optional-components=ANACONDA,JUPYTER \
--enable-component-gateway \
--metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh
你知道如何解决这个问题吗?我改为n1-standard-4
但n1-standard-1
我无法修复它。但是,当我删除--image-version=1.5
该命令时。它会给程序的其余部分带来任何问题吗?
当我单击 JupyterLab 链接时,也从 Web 界面中,我无法在我的 Dataproc 集群上可用的内核中看到 Python 3 图标。我只有 Python 2,它一直说与服务器的连接消失了。
这是 JupyterLab 错误的图片:
解决方案
您看到有关存储容量的错误,因为在 1.5 映像版本中,Dataproc 使用更大的 1000 GiB 磁盘用于主节点和工作节点以提高性能。您可以使用--master-boot-disk-size=100GB
和--worker-boot-disk-size=100GB
命令标志来减小磁盘大小:
gcloud beta dataproc clusters create ${CLUSTER_NAME} \
--region=${REGION} \
--zone=${ZONE} \
--image-version=1.5 \
--master-machine-type=n1-standard-4 \
--master-boot-disk-size=100GB \
--worker-machine-type=n1-standard-4 \
--worker-boot-disk-size=100GB \
--bucket=${BUCKET_NAME} \
--optional-components=ANACONDA,JUPYTER \
--enable-component-gateway \
--metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh
当您删除--image-version=1.5
标志时,此命令使用默认不支持 Python 3 的默认 1.3 映像版本,这就是您在 JupyterLab 中看不到 Python 3 内核的原因。
推荐阅读
- lua - 本地脚本中的 Roblox 聊天命令?
- .net-core - EF5 不保存修改的集合
- sql - 如何连接表格并只显示两行?
- c# - 使用 LINQ (C#) 时 SQL Server 中的 TinyInt 数据类型不保存 0 整数
- azure-functions - 迁移到 Net5 后未找到具有 ServiceBusTrigger 的功能
- php - Sublime text 通过按回车键复制标签
- javascript - Discord bot 客户端在尝试运行机器人时缺少意图错误
- node.js - 使用 Firestore 在动态时间范围内显示文档快照
- amazon-web-services - AWS DynamoDB 查询不显示用户数据,除非具有管理员权限
- amazon-web-services - 如何更新在 AWS SAM/CodePipeline 中定义/部署的 Lambda 代码?