google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行
问题描述
Cloud Data Fusion 会为每次流水线运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置,我想使用该集群来运行管道
解决方案
这可以通过在系统管理员 -> 配置 -> 系统计算配置文件 -> 创建一个新的计算配置文件下使用远程 Hadoop 配置程序设置一个新的计算配置文件来实现。此功能仅适用于 Cloud Data Fusion 企业版(“执行环境选择”)。
以下是详细步骤。
Dataproc 集群上的 SSH 设置
一种。导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称,转到“集群详细信息”。
湾。在“VM Instances”下,单击“SSH”按钮以连接到 Dataproc VM。
C。按照此处的步骤创建新的 SSH 密钥,格式化公钥文件以强制到期时间,并在项目或实例级别添加新创建的 SSH 公钥。
d。如果 SSH 设置成功,您应该能够在 Compute Engine 控制台的 Metadata 部分看到刚刚添加的 SSH 密钥,以及 Dataproc VM 中的 authorized_keys 文件。
为您的 Data Fusion 实例创建自定义系统计算配置文件
C。在“配置”选项卡下,展开“系统计算配置文件”。点击“Create New Profile”,然后在下一页选择“Remote Hadoop Provisioner”。
d。填写个人资料的一般信息。
e. 您可以在 Compute Engine 下的“VM instance details”页面找到 SSH 主机 IP 信息。
F。复制在步骤 1 中创建的 SSH 私钥,并将其粘贴到“SSH 私钥”字段。
配置您的数据融合管道以使用自定义配置文件
一种。单击管道以针对远程 hadoop 运行
推荐阅读
- hibernate - HQL 是否有等效于 SQL COVERT() 函数
- database - MongoDB索引可以根据某些属性是否为空对文档进行排序
- ios - UITableView 重新加载部分时的内容插入更改
- python - 如何使用随机空格分隔符拆分此字符串?
- node.js - Express Node js对路由中的模式对象进行排序
- docker - 我有两个容器在不同的不同端口运行如何为两个容器做 DNS 条目
- java - 如何使用附加的安全 CSV 文件向用户发送电子邮件,并且电子邮件不应回复
- amazon-web-services - 下载 SpaceNet 数据集:权限被拒绝
- sql-loader - sql loader控制文件中的多个分隔符
- ionic-framework - Nativescript后台模式