首页 > 解决方案 > 如何将 presto 集群集成到 hadoop 集群?

问题描述

我们有基于ambari的Hadoop集群由于thrift服务器性能不佳,我们决定用presto替换它我们当前的Hadoop集群有以下机器960个数据节点机器(基于redhat 7 OS)

关于 presto - Presto(或 PrestoDB)是一个开源的分布式 SQL 查询引擎,从头开始设计用于对任何大小的数据进行快速分析查询。它支持非关系源,例如 Hadoop 分布式文件系统 (HDFS),

我们安装了新的presto服务器如下首先我们安装了操作系统(redhat 7),总共13台机器1台机器用于presto coordinator和12台机器用于presto worker

安装操作系统后我们成功安装了presto(presto coordinator + presto workers)

现在我们被困在如何在 presto 集群和 Hadoop 集群之间进行集成

我将给出有关蜂巢连接器的简短示例( hive.properties )

我们有以下变量 hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

由于此文件位于数据节点机器上,当然不在 presto 工作机器上,我假设我们需要将这些文件从数据节点机器之一复制到 presto 工作机器

我在这里吗?

标签: hadooppresto

解决方案


您通常不需要进行配置hive.config.resources以允许 Presto 与您的 HDFS 集群通信。尝试在没有该配置的情况下使用 Presto。仅当您有 Hadoop KMS 等特殊要求时才配置它。

要配置它,请将适当的 Hadoop 配置文件复制到您的 Presto 机器(协调器和工作器),然后设置hive.config.resources为指向这些文件。

有关更多详细信息,请参阅Hive 连接器文档


推荐阅读