google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行

首页 > 解决方案 > 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行

问题描述

Cloud Data Fusion 会为每次流水线运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置，我想使用该集群来运行管道

标签： google-cloud-data-fusion

解决方案

这可以通过在系统管理员 -> 配置 -> 系统计算配置文件 -> 创建一个新的计算配置文件下使用远程 Hadoop 配置程序设置一个新的计算配置文件来实现。此功能仅适用于 Cloud Data Fusion 企业版（“执行环境选择”）。

以下是详细步骤。

Dataproc 集群上的 SSH 设置

一种。导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称，转到“集群详细信息”。

湾。在“VM Instances”下，单击“SSH”按钮以连接到 Dataproc VM。

C。按照此处的步骤创建新的 SSH 密钥，格式化公钥文件以强制到期时间，并在项目或实例级别添加新创建的 SSH 公钥。

d。如果 SSH 设置成功，您应该能够在 Compute Engine 控制台的 Metadata 部分看到刚刚添加的 SSH 密钥，以及 Dataproc VM 中的 authorized_keys 文件。
为您的 Data Fusion 实例创建自定义系统计算配置文件

一种。通过单击“查看实例”导航到您的数据融合实例控制台

湾。点击右上角的“系统管理员”。

C。在“配置”选项卡下，展开“系统计算配置文件”。点击“Create New Profile”，然后在下一页选择“Remote Hadoop Provisioner”。

d。填写个人资料的一般信息。

e. 您可以在 Compute Engine 下的“VM instance details”页面找到 SSH 主机 IP 信息。

F。复制在步骤 1 中创建的 SSH 私钥，并将其粘贴到“SSH 私钥”字段。

G。单击“创建”以创建配置文件。
配置您的数据融合管道以使用自定义配置文件

一种。单击管道以针对远程 hadoop 运行

湾。单击配置-> 计算配置并选择远程 hadoop 配置器配置

推荐阅读