java - 远程火花；爪哇；HDFS (Apache Spark (2.4.4)

问题描述

设置

我有 Apache Spark (2.4.4)，在 Linux (Ubuntu 18.04.3 LTS (GNU/Linux 4.15.0-65-generic x86_64)) 上运行我也有 hadoop(hdfs) 在同一个 Linux 机器上运行。（主机名：ikarakas.fritz.box，IP：192.168.188.76）

我的驱动程序应用程序（Java；1.8.0_73）在 Mac 机器上。

这是我的驱动程序应用程序的一些摘录

public void startUp() {
    System.out.println(getNowISO() + "-----TEST: startUp");

    String sparkMaster = "ikarakas.fritz.box";

    SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
            .setMaster("spark://" + sparkMaster + ":7077");

    spark = SparkSession
            .builder()
            .config(conf)
            .config("spark.sql.session.timeZone", "UTC")
            .getOrCreate();


    l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
    // ...
}

问题

我的应用程序永远无法完成 spark.read.json(...) 语句。

在查看 Spark Web Job 监控界面时，看到我的作业卡在了那个行号上；例如

org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)

我要做的就是在远程主机上运行我的工作，并且作为其中的一部分，能够从 hdfs 加载文件。

有任何想法吗？谢谢

标签： javaapache-sparkhadoophdfs

java - 远程火花；爪哇；HDFS (Apache Spark (2.4.4)

问题描述

设置

问题

解决方案

推荐阅读