首页 > 解决方案 > 远程火花;爪哇;HDFS (Apache Spark (2.4.4)

问题描述

设置

我有 Apache Spark (2.4.4),在 Linux (Ubuntu 18.04.3 LTS (GNU/Linux 4.15.0-65-generic x86_64)) 上运行我也有 hadoop(hdfs) 在同一个 Linux 机器上运行。(主机名:ikarakas.fritz.box,IP:192.168.188.76)

我的驱动程序应用程序(Java;1.8.0_73)在 Mac 机器上。

这是我的驱动程序应用程序的一些摘录

public void startUp() {
    System.out.println(getNowISO() + "-----TEST: startUp");

    String sparkMaster = "ikarakas.fritz.box";

    SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
            .setMaster("spark://" + sparkMaster + ":7077");

    spark = SparkSession
            .builder()
            .config(conf)
            .config("spark.sql.session.timeZone", "UTC")
            .getOrCreate();


    l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
    // ...
}

问题

我的应用程序永远无法完成 spark.read.json(...) 语句。

在查看 Spark Web Job 监控界面时,看到我的作业卡在了那个行号上;例如

org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)

我要做的就是在远程主机上运行我的工作,并且作为其中的一部分,能够从 hdfs 加载文件。

有任何想法吗?谢谢

标签: javaapache-sparkhadoophdfs

解决方案


推荐阅读