首页 > 解决方案 > Spark读取从--files提交的csv文件

问题描述

我正在向纱线上的远程火花集群提交一个 Spark 作业,并在 spark-submit 中包含一个文件,--file我想将提交的文件作为数据帧读取。但我对如何在不必将文件放入 HDFS 的情况下进行此操作感到困惑:

spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")

标签: apache-spark

解决方案


spark.sparkContext.addFile("file:///your local file path ")

添加文件 usingaddFile以便它可以在您的工作节点上可用。由于您想以集群模式读取本地文件。

您可能需要根据 scala 和您使用的 spark 版本进行轻微更改。


推荐阅读