hadoop - 如何将 presto 集群集成到 hadoop 集群?
问题描述
我们有基于ambari的Hadoop集群由于thrift服务器性能不佳,我们决定用presto替换它我们当前的Hadoop集群有以下机器960个数据节点机器(基于redhat 7 OS)
关于 presto - Presto(或 PrestoDB)是一个开源的分布式 SQL 查询引擎,从头开始设计用于对任何大小的数据进行快速分析查询。它支持非关系源,例如 Hadoop 分布式文件系统 (HDFS),
我们安装了新的presto服务器如下首先我们安装了操作系统(redhat 7),总共13台机器1台机器用于presto coordinator和12台机器用于presto worker
安装操作系统后我们成功安装了presto(presto coordinator + presto workers)
现在我们被困在如何在 presto 集群和 Hadoop 集群之间进行集成
我将给出有关蜂巢连接器的简短示例( hive.properties )
我们有以下变量 hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml
由于此文件位于数据节点机器上,当然不在 presto 工作机器上,我假设我们需要将这些文件从数据节点机器之一复制到 presto 工作机器
我在这里吗?
解决方案
您通常不需要进行配置hive.config.resources
以允许 Presto 与您的 HDFS 集群通信。尝试在没有该配置的情况下使用 Presto。仅当您有 Hadoop KMS 等特殊要求时才配置它。
要配置它,请将适当的 Hadoop 配置文件复制到您的 Presto 机器(协调器和工作器),然后设置hive.config.resources
为指向这些文件。
有关更多详细信息,请参阅Hive 连接器文档。
推荐阅读
- flutter - 如果我将文件放在 getApplicationDocumentsDirectory() 目录中,文件将存储在哪里?它会增加应用程序的大小吗?
- spring - Mongo 聚合查询到等效的 Spring Mongo 数据
- asp.net - 在 ASP.NET MVC 中获取经过身份验证的身份用户数据
- matlab - ismember 只取第一个数字
- android - react native中的expo代码总是出错
- c++ - VS Code 无法在集成终端中运行 C/C++
- javascript - 停止渲染正在渲染的图表
- mysql - 使用 select 从另一个数据库中删除数据
- java - 无法生成 .log 文件,但有输出控制台
- php - php循环函数中的多个返回