java - 远程火花;爪哇;HDFS (Apache Spark (2.4.4)
问题描述
设置
我有 Apache Spark (2.4.4),在 Linux (Ubuntu 18.04.3 LTS (GNU/Linux 4.15.0-65-generic x86_64)) 上运行我也有 hadoop(hdfs) 在同一个 Linux 机器上运行。(主机名:ikarakas.fritz.box,IP:192.168.188.76)
我的驱动程序应用程序(Java;1.8.0_73)在 Mac 机器上。
这是我的驱动程序应用程序的一些摘录
public void startUp() {
System.out.println(getNowISO() + "-----TEST: startUp");
String sparkMaster = "ikarakas.fritz.box";
SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
.setMaster("spark://" + sparkMaster + ":7077");
spark = SparkSession
.builder()
.config(conf)
.config("spark.sql.session.timeZone", "UTC")
.getOrCreate();
l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
// ...
}
问题
我的应用程序永远无法完成 spark.read.json(...) 语句。
在查看 Spark Web Job 监控界面时,看到我的作业卡在了那个行号上;例如
org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)
我要做的就是在远程主机上运行我的工作,并且作为其中的一部分,能够从 hdfs 加载文件。
有任何想法吗?谢谢
解决方案
推荐阅读
- mysql - Mysql2::Error: 操作数应包含 1 列:
- python - Lambdify 或评估 CoordSys3D
- spring-boot - 带有 Spring 引导的 Apache AVRO
- scala - 光滑 - 使用对象而不是元组插入行
- sql - ORA-02067: 需要事务或保存点回滚
- html - 有什么方法可以通过单击一个标签来触发两个更改?
- node.js - 运行子进程命令时遇到问题
- r - 永久存储来自一个操作按钮的输入,以便以后使用
- javascript - 无法将日期格式转换为 2018 年 7 月 23 日星期一 21:54:14 GMT+0530(印度标准时间)为 YYYYMMDD
- google-maps - Google Map API V3 是否提供不使用移动应用程序跟踪移动资产的解决方案?